論文の概要: M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning
- arxiv url: http://arxiv.org/abs/2601.09278v1
- Date: Wed, 14 Jan 2026 08:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.332591
- Title: M$^3$Searcher: Modular Multimodal Information Seeking Agency with Retrieval-Oriented Reasoning
- Title(参考訳): M$3$Searcher:Retrieval-Oriented Reasoningを用いたModular Multimodal Information Seeking Agency
- Authors: Xiaohan Yu, Chao Feng, Lang Mei, Chong Chen,
- Abstract要約: M$3$Searcherはモジュラーマルチモーダル情報検索エージェントである。
M$3$Searcherは検索指向の多目的報酬で最適化されている。
MMSearchVQAは、検索中心のRLトレーニングをサポートするマルチモーダルマルチホップデータセットである。
- 参考スコア(独自算出の注目度): 8.546005018618713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in DeepResearch-style agents have demonstrated strong capabilities in autonomous information acquisition and synthesize from real-world web environments. However, existing approaches remain fundamentally limited to text modality. Extending autonomous information-seeking agents to multimodal settings introduces critical challenges: the specialization-generalization trade-off that emerges when training models for multimodal tool-use at scale, and the severe scarcity of training data capturing complex, multi-step multimodal search trajectories. To address these challenges, we propose M$^3$Searcher, a modular multimodal information-seeking agent that explicitly decouples information acquisition from answer derivation. M$^3$Searcher is optimized with a retrieval-oriented multi-objective reward that jointly encourages factual accuracy, reasoning soundness, and retrieval fidelity. In addition, we develop MMSearchVQA, a multimodal multi-hop dataset to support retrieval centric RL training. Experimental results demonstrate that M$^3$Searcher outperforms existing approaches, exhibits strong transfer adaptability and effective reasoning in complex multimodal tasks.
- Abstract(参考訳): 近年のDeepResearchスタイルエージェントの進歩は、実世界のWeb環境から自律的な情報取得と合成の強力な能力を示している。
しかし、既存のアプローチは基本的にテキストのモダリティに限られている。
自律的な情報探索エージェントをマルチモーダル設定に拡張することは、大規模なマルチモーダルツール使用のトレーニングモデルで発生する特殊化一般化トレードオフや、複雑でマルチステップのマルチモーダル検索トラジェクトリをキャプチャするトレーニングデータの深刻な不足といった、重要な課題をもたらす。
これらの課題に対処するため,モジュール型マルチモーダル情報探索エージェントであるM$^3$Searcherを提案する。
M$3$Searcherは、検索指向の多目的報酬で最適化されており、これは事実の正確性、推論音性、検索の忠実さを共同で促進する。
さらに,検索中心のRL学習を支援するマルチモーダルマルチホップデータセットMMSearchVQAを開発した。
実験の結果、M$^3$Searcherは既存の手法より優れており、複雑なマルチモーダルタスクにおいて強い伝達適応性と効果的な推論を示すことが示された。
関連論文リスト
- MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。
MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。
動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:29:02Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG)は、外部の動的情報を統合することで問題を軽減し、現実のグラウンドを改善する。
クロスモーダルアライメントと推論は、単調なRAG以上の難題をもたらす。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MultiBench: Multiscale Benchmarks for Multimodal Representation Learning [87.23266008930045]
MultiBenchは15のデータセット、10のモダリティ、20の予測タスク、6の研究領域にまたがる、体系的で統一されたベンチマークである。
データローディング、実験的なセットアップ、モデル評価を簡素化し、標準化する、エンドツーエンドの自動機械学習パイプラインを提供する。
大規模なマルチモーダルデータセットに対するロバストネスや、現実的な不完全性に対するロバストネスなど、将来の研究に対する影響の高い課題が紹介されている。
論文 参考訳(メタデータ) (2021-07-15T17:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。