論文の概要: MMhops-R1: Multimodal Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2512.13573v2
- Date: Tue, 16 Dec 2025 03:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.991872
- Title: MMhops-R1: Multimodal Multi-hop Reasoning
- Title(参考訳): MMhops-R1:マルチモーダルマルチホップ推論
- Authors: Tao Zhang, Ziqi Zhang, Zongyang Ma, Yuxin Chen, Bing Li, Chunfeng Yuan, Guangting Wang, Fengyun Rao, Ying Shan, Weiming Hu,
- Abstract要約: マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
- 参考スコア(独自算出の注目度): 89.68086555694084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to perform multi-modal multi-hop reasoning by iteratively integrating information across various modalities and external knowledge is critical for addressing complex real-world challenges. However, existing Multi-modal Large Language Models (MLLMs) are predominantly limited to single-step reasoning, as existing benchmarks lack the complexity needed to evaluate and drive multi-hop abilities. To bridge this gap, we introduce MMhops, a novel, large-scale benchmark designed to systematically evaluate and foster multi-modal multi-hop reasoning. MMhops dataset comprises two challenging task formats, Bridging and Comparison, which necessitate that models dynamically construct complex reasoning chains by integrating external knowledge. To tackle the challenges posed by MMhops, we propose MMhops-R1, a novel multi-modal Retrieval-Augmented Generation (mRAG) framework for dynamic reasoning. Our framework utilizes reinforcement learning to optimize the model for autonomously planning reasoning paths, formulating targeted queries, and synthesizing multi-level information. Comprehensive experiments demonstrate that MMhops-R1 significantly outperforms strong baselines on MMhops, highlighting that dynamic planning and multi-modal knowledge integration are crucial for complex reasoning. Moreover, MMhops-R1 demonstrates strong generalization to tasks requiring fixed-hop reasoning, underscoring the robustness of our dynamic planning approach. In conclusion, our work contributes a challenging new benchmark and a powerful baseline model, and we will release the associated code, data, and weights to catalyze future research in this critical area.
- Abstract(参考訳): 複雑な現実世界の課題に対処するためには、様々なモダリティや外部知識の情報を反復的に統合することで、マルチモーダルなマルチホップ推論を行う能力が不可欠である。
しかしながら、既存のマルチモーダル大言語モデル(MLLM)は、既存のベンチマークでは、マルチホップ能力の評価と駆動に必要な複雑さが欠如しているため、主にシングルステップ推論に限られている。
このギャップを埋めるために,マルチモーダルマルチホップ推論を体系的に評価し,育成するために設計された,新しい大規模ベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリジングと比較という2つの困難なタスクフォーマットで構成されており、モデルが外部知識を統合することで複雑な推論チェーンを動的に構築する必要がある。
MMhopsがもたらす課題に対処するため,動的推論のための新しいマルチモーダル検索・拡張生成(mRAG)フレームワークMMhops-R1を提案する。
我々のフレームワークは強化学習を利用して、推論経路を自律的に計画し、ターゲットとするクエリを定式化し、マルチレベル情報を合成するモデルを最適化する。
総合的な実験により、MMhops-R1はMMhopsの強力なベースラインを著しく上回り、動的計画とマルチモーダル知識の統合が複雑な推論に不可欠であることを強調した。
さらに、MMhops-R1は、固定ホップ推論を必要とするタスクに対して強力な一般化を示し、我々の動的計画手法の堅牢性を強調している。
結論として、我々の研究は、挑戦的な新しいベンチマークと強力なベースラインモデルに貢献し、この重要な領域における将来の研究を促進するための関連コード、データ、ウェイトをリリースします。
関連論文リスト
- VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。
PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。
本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文 参考訳(メタデータ) (2025-07-30T12:23:21Z) - MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation [80.08991479306681]
MEXAは、エキスパートモデルのモダリティおよびタスク対応アグリゲーションを実行する、トレーニング不要のフレームワークである。
我々は,ビデオ推論,オーディオ推論,3D理解,医用QAなど,多様なマルチモーダルベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-06-20T16:14:13Z) - Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models [45.15161506154318]
Infi-MMRは、マルチモーダル小言語モデルの推論能力を体系的に解放するフレームワークである。
第1フェーズであるFoundational Reasoning Activationは、高品質なテキスト推論データセットを活用して、モデルの論理推論能力を活性化し、強化する。
第2のフェーズであるクロスモーダル推論適応は、キャプション拡張されたマルチモーダルデータを使用して、推論スキルをマルチモーダルコンテキストにプログレッシブに転送する。
第3フェーズであるMultimodal Reasoning Enhancementでは、言語バイアスを緩和し、堅牢なクロスモーダル推論を促進するために、キュレートされたキャプションフリーなマルチモーダルデータを採用している。
論文 参考訳(メタデータ) (2025-05-29T04:51:56Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。