Fugu-MT 論文翻訳(概要): Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models

論文の概要: Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models

arxiv url: http://arxiv.org/abs/2402.12058v1
Date: Mon, 19 Feb 2024 11:23:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 16:52:00.744260
Title: Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models
Title（参考訳）: 大規模マルチモーダルモデルにおける視覚言語協調を促進する足場座標
Authors: Xuanyu Lei, Zonghan Yang, Xinrui Chen, Peng Li and Yang Liu
Abstract要約: 最先端のLMM(Large Multi-Modal Models)は、視覚言語タスクにおいて例外的な機能を示す。 LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いている。視覚言語コーディネートを促進するために,足場座標の促進を促すScaffoldを提案する。
参考スコア（独自算出の注目度）: 18.772045053892885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: State-of-the-art Large Multi-Modal Models (LMMs) have demonstrated exceptional capabilities in vision-language tasks. Despite their advanced functionalities, the performances of LMMs are still limited in challenging scenarios that require complex reasoning with multiple levels of visual information. Existing prompting techniques for LMMs focus on either improving textual reasoning or leveraging tools for image preprocessing, lacking a simple and general visual prompting scheme to promote vision-language coordination in LMMs. In this work, we propose Scaffold prompting that scaffolds coordinates to promote vision-language coordination. Specifically, Scaffold overlays a dot matrix within the image as visual information anchors and leverages multi-dimensional coordinates as textual positional references. Extensive experiments on a wide range of challenging vision-language tasks demonstrate the superiority of Scaffold over GPT-4V with the textual CoT prompting. Our code is released in https://github.com/leixy20/Scaffold.
Abstract（参考訳）: 最先端のLMM(Large Multi-Modal Models)は視覚言語タスクにおいて例外的な機能を示す。高度な機能にもかかわらず、LMMのパフォーマンスは、複数のレベルの視覚情報を必要とする複雑な推論を必要とする困難なシナリオに制限されている。 LMMの既存のプロンプト技術は、テキスト推論の改善や画像前処理のためのツールの活用に重点を置いており、LMMにおける視覚言語協調を促進するためのシンプルで一般的な視覚的プロンプトスキームが欠如している。本研究では,視覚言語協調の促進を目的とした足場座標の提案を行う。具体的には、画像内のドット行列を視覚情報アンカーとしてオーバーレイし、多次元座標をテキスト位置参照として利用する。幅広い視覚言語タスクに対する広範な実験は、テキストCoTプロンプトによるGPT-4VよりもScaffoldの方が優れていることを示した。私たちのコードはhttps://github.com/leixy20/scaffoldでリリースしています。

関連論文リスト

AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-03T13:34:51Z)
Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。 RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文参考訳（メタデータ） (2024-12-30T13:16:08Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2024-10-21T16:30:29Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。 MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文参考訳（メタデータ） (2024-03-29T16:26:20Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。 DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文参考訳（メタデータ） (2024-02-29T10:17:27Z)
MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。 MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文参考訳（メタデータ） (2023-03-20T18:31:47Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。