論文の概要: Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.19322v1
- Date: Thu, 28 Mar 2024 11:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:33:46.149509
- Title: Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける推論のプラグ・アンド・プレイグラウンド化
- Authors: Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Ziyong Feng, Yongle Zhao, Yin Xie,
- Abstract要約: P2GはMLLMにおける推論のプラグ・アンド・プレイグラウンドのためのフレームワークである。
P2GBは、高解像度画像に挑戦する際のオブジェクト間の関係やテキストを理解するMLLMの能力を評価するためのベンチマークである。
私たちの研究は、推論のプラグ&プレイグラウンド化の可能性を強調し、モデルスケーリング以外の有望な選択肢を開放します。
- 参考スコア(独自算出の注目度): 6.984134293257202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge of Multimodal Large Language Models (MLLMs), given their prominent emergent capabilities in instruction following and reasoning, has greatly advanced the field of visual reasoning. However, constrained by their non-lossless image tokenization, most MLLMs fall short of comprehensively capturing details of text and objects, especially in high-resolution images. To address this, we propose P2G, a novel framework for plug-and-play grounding of reasoning in MLLMs. Specifically, P2G exploits the tool-usage potential of MLLMs to employ expert agents to achieve on-the-fly grounding to critical visual and textual objects of image, thus achieving deliberate reasoning via multimodal prompting. We further create P2GB, a benchmark aimed at assessing MLLMs' ability to understand inter-object relationships and text in challenging high-resolution images. Comprehensive experiments on visual reasoning tasks demonstrate the superiority of P2G. Noteworthy, P2G achieved comparable performance with GPT-4V on P2GB, with a 7B backbone. Our work highlights the potential of plug-and-play grounding of reasoning and opens up a promising alternative beyond model scaling.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の急増は、命令の追従と推論において顕著な創発的な能力から、視覚的推論の分野を大きく前進させてきた。
しかし、非ロスレスな画像トークン化によって制約されたほとんどのMLLMは、特に高解像度画像において、テキストやオブジェクトの詳細を包括的にキャプチャすることができない。
そこで本稿では,MLLMにおける推論のプラグ・アンド・プレイグラウンド化のための新しいフレームワークであるP2Gを提案する。
具体的には、P2GはMLLMのツール使用の可能性を利用して、画像の重要な視覚的およびテキスト的オブジェクトへのオンザフライグラウンド化を達成するために専門家エージェントを雇い、マルチモーダルプロンプトによる意図的な推論を実現する。
我々はさらに、高解像度画像に挑戦する際のオブジェクト間の関係やテキストを理解するMLLMの能力を評価するためのベンチマークであるP2GBを作成する。
視覚的推論タスクに関する総合的な実験は、P2Gの優位性を示している。
注目すべきは、P2Gは7Bのバックボーンを持つP2GBでGPT-4Vと同等の性能を達成したことである。
私たちの研究は、推論のプラグ&プレイグラウンド化の可能性を強調し、モデルスケーリング以外の有望な選択肢を開放します。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Mipha: A Comprehensive Overhaul of Multimodal Assistant with Small Language Models [25.724995114710165]
マルチモーダル小言語モデル(Multimodal Small Language Models, MLM)の設計側面について検討し, Mipha という名前の効率的なマルチモーダルアシスタントを提案する。
私たちのMipha-3Bは、最先端の大規模MLLM、特にLLaVA-1.5-13Bを複数のベンチマークで上回ります。
論文 参考訳(メタデータ) (2024-03-10T12:43:27Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。