論文の概要: ContextualLVLM-Agent: A Holistic Framework for Multi-Turn Visually-Grounded Dialogue and Complex Instruction Following
- arxiv url: http://arxiv.org/abs/2508.15164v1
- Date: Thu, 21 Aug 2025 02:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.143434
- Title: ContextualLVLM-Agent: A Holistic Framework for Multi-Turn Visually-Grounded Dialogue and Complex Instruction Following
- Title(参考訳): ContextualLVLM-Agent:多軸視覚対話のための全体的枠組みと複雑な指導
- Authors: Seungmin Han, Haeun Kwon, Ji-jun Park, Taeyang Yoon,
- Abstract要約: MMDR-Bench(Multi-Modal Dialogue Reasoning Benchmark)は,300の複雑なマルチターン対話シナリオからなる新しいデータセットである。
また,既存のLVLMを高度な推論と命令追従機能で拡張する包括的フレームワークであるCoLVLM Agent(Contextual LVLM Agent)を提案する。
MMDR-Benchを用いた実験により,CoLVLM Agentは高い性能を示し,平均評価スコアは4.03。
- 参考スコア(独自算出の注目度): 0.2999888908665658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advancements in Large Language Models (LLMs) and Large Vision-Language Models (LVLMs), current models still face substantial challenges in handling complex, multi-turn, and visually-grounded tasks that demand deep reasoning, sustained contextual understanding, entity tracking, and multi-step instruction following. Existing benchmarks often fall short in capturing the dynamism and intricacies of real-world multi-modal interactions, leading to issues such as context loss and visual hallucinations. To address these limitations, we introduce MMDR-Bench (Multi-Modal Dialogue Reasoning Benchmark), a novel dataset comprising 300 meticulously designed complex multi-turn dialogue scenarios, each averaging 5-7 turns and evaluated across six core dimensions including visual entity tracking and reasoning depth. Furthermore, we propose CoLVLM Agent (Contextual LVLM Agent), a holistic framework that enhances existing LVLMs with advanced reasoning and instruction following capabilities through an iterative "memory-perception-planning-execution" cycle, requiring no extensive re-training of the underlying models. Our extensive experiments on MMDR-Bench demonstrate that CoLVLM Agent consistently achieves superior performance, attaining an average human evaluation score of 4.03, notably surpassing state-of-the-art commercial models like GPT-4o (3.92) and Gemini 1.5 Pro (3.85). The framework exhibits significant advantages in reasoning depth, instruction adherence, and error suppression, and maintains robust performance over extended dialogue turns, validating the effectiveness of its modular design and iterative approach for complex multi-modal interactions.
- Abstract(参考訳): LLM(Large Language Models)とLVLM(Large Vision-Language Models)の大幅な進歩にもかかわらず、現在のモデルは、深い推論、持続的なコンテキスト理解、エンティティ追跡、そしてその後のマルチステップ命令を必要とする複雑な、マルチターン、視覚的なタスクを扱う上で大きな課題に直面している。
既存のベンチマークは、実世界のマルチモーダル相互作用のダイナミズムと複雑さを捉えるのに不足することが多く、文脈損失や視覚幻覚といった問題に繋がる。
MMDR-Bench(Multi-Modal Dialogue Reasoning Benchmark)は,視覚的実体追跡や推論深度を含む6つのコア次元で,それぞれ平均5-7回転,評価される300個の複雑な多ターン対話シナリオからなる新しいデータセットである。
さらに,CLVLMエージェント (Contextual LVLM Agent) を提案する。これは,既存のLVLMを高度な推論と指導能力で拡張し,反復的な「メモリ知覚計画実行」サイクルを通し,基礎となるモデルを広範囲に再学習する必要のない,総合的なフレームワークである。
MMDR-Benchに関する広範な実験により、CoLVLM Agentは、GPT-4o(3.92)やGemini 1.5 Pro(3.85)といった最先端の商用モデルを上回る平均4.03の人的評価スコアを達成し、一貫して優れた性能を発揮することが示された。
このフレームワークは、深度、命令の順守、エラー抑制において大きな利点を示し、拡張された対話のターンよりも堅牢な性能を維持し、そのモジュラー設計の有効性と複雑なマルチモーダル相互作用に対する反復的アプローチを検証する。
関連論文リスト
- Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [12.176547302474528]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - CIMR: Contextualized Iterative Multimodal Reasoning for Robust Instruction Following in LVLMs [2.238122883754112]
CIMRは、コンテキスト対応の反復推論と自己補正モジュールを導入した、新しいフレームワークである。
CIMRの精度は91.5%で、GPT-4V、LLaVA-1.5、MiniGPT-4、InstructBLIPなどの最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-07-22T18:39:18Z) - Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。
既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。
本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。