論文の概要: Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2403.19322v1
- Date: Thu, 28 Mar 2024 11:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 16:33:46.149509
- Title: Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルにおける推論のプラグ・アンド・プレイグラウンド化
- Authors: Jiaxing Chen, Yuxuan Liu, Dehu Li, Xiang An, Ziyong Feng, Yongle Zhao, Yin Xie,
- Abstract要約: P2GはMLLMにおける推論のプラグ・アンド・プレイグラウンドのためのフレームワークである。
P2GBは、高解像度画像に挑戦する際のオブジェクト間の関係やテキストを理解するMLLMの能力を評価するためのベンチマークである。
私たちの研究は、推論のプラグ&プレイグラウンド化の可能性を強調し、モデルスケーリング以外の有望な選択肢を開放します。
- 参考スコア(独自算出の注目度): 6.984134293257202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The surge of Multimodal Large Language Models (MLLMs), given their prominent emergent capabilities in instruction following and reasoning, has greatly advanced the field of visual reasoning. However, constrained by their non-lossless image tokenization, most MLLMs fall short of comprehensively capturing details of text and objects, especially in high-resolution images. To address this, we propose P2G, a novel framework for plug-and-play grounding of reasoning in MLLMs. Specifically, P2G exploits the tool-usage potential of MLLMs to employ expert agents to achieve on-the-fly grounding to critical visual and textual objects of image, thus achieving deliberate reasoning via multimodal prompting. We further create P2GB, a benchmark aimed at assessing MLLMs' ability to understand inter-object relationships and text in challenging high-resolution images. Comprehensive experiments on visual reasoning tasks demonstrate the superiority of P2G. Noteworthy, P2G achieved comparable performance with GPT-4V on P2GB, with a 7B backbone. Our work highlights the potential of plug-and-play grounding of reasoning and opens up a promising alternative beyond model scaling.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の急増は、命令の追従と推論において顕著な創発的な能力から、視覚的推論の分野を大きく前進させてきた。
しかし、非ロスレスな画像トークン化によって制約されたほとんどのMLLMは、特に高解像度画像において、テキストやオブジェクトの詳細を包括的にキャプチャすることができない。
そこで本稿では,MLLMにおける推論のプラグ・アンド・プレイグラウンド化のための新しいフレームワークであるP2Gを提案する。
具体的には、P2GはMLLMのツール使用の可能性を利用して、画像の重要な視覚的およびテキスト的オブジェクトへのオンザフライグラウンド化を達成するために専門家エージェントを雇い、マルチモーダルプロンプトによる意図的な推論を実現する。
我々はさらに、高解像度画像に挑戦する際のオブジェクト間の関係やテキストを理解するMLLMの能力を評価するためのベンチマークであるP2GBを作成する。
視覚的推論タスクに関する総合的な実験は、P2Gの優位性を示している。
注目すべきは、P2Gは7Bのバックボーンを持つP2GBでGPT-4Vと同等の性能を達成したことである。
私たちの研究は、推論のプラグ&プレイグラウンド化の可能性を強調し、モデルスケーリング以外の有望な選択肢を開放します。
関連論文リスト
- MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。