論文の概要: ProMMSearchAgent: A Generalizable Multimodal Search Agent Trained with Process-Oriented Rewards
- arxiv url: http://arxiv.org/abs/2604.20486v1
- Date: Wed, 22 Apr 2026 12:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.120215
- Title: ProMMSearchAgent: A Generalizable Multimodal Search Agent Trained with Process-Oriented Rewards
- Title(参考訳): ProMMSearchAgent:プロセス指向リワードを訓練した汎用マルチモーダル検索エージェント
- Authors: Wentao Yan, Shengqin Wang, Huichi Zhou, Yihang Chen, Kun Shao, Yuan Xie, Zhizhong Zhang,
- Abstract要約: ProMMSearchAgentは、マルチモーダル検索のための新しいSim-to-Realトレーニングパラダイムを確立する。
我々は、正しい認知判断を明示的に報いるような、密集した行動メタデータを生成する。
ProMMSearchAgentは新たなSOTAパフォーマンスを実現し、FVQAテストでは+5.1%、InfoSeekでは+6.3%、MMSearchでは+11.3%を上回った。
- 参考スコア(独自算出の注目度): 24.61813749877376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training multimodal agents via reinforcement learning for knowledge-intensive visual reasoning is fundamentally hindered by the extreme sparsity of outcome-based supervision and the unpredictability of live web environments. To resolve these algorithmic and environmental bottlenecks, we introduce ProMMSearchAgent, establishing a novel Sim-to-Real training paradigm for multimodal search. We decouple policy learning into a deterministic, local static sandbox. Crucially, to learn effectively within this constrained environment, we propose an introspective process-oriented reward. By probing the agent's own parametric knowledge boundaries, we generate dense behavioral metadata that explicitly rewards the correct cognitive decision, initiating a multimodal or text search only when visually or factually uncertain. Extensive experiments demonstrate that our locally-trained policy transfers zero-shot to the live Google Search API. ProMMSearchAgent achieves new SOTA performance, outperforming MMSearch-R1 by +5.1% on FVQA-test, +6.3% on InfoSeek, and +11.3% on MMSearch.
- Abstract(参考訳): 知識集約型視覚推論のための強化学習によるマルチモーダルエージェントの訓練は、結果に基づく監督の極端に疎外性と、ライブウェブ環境の予測不可能によって、基本的に妨げられている。
このようなアルゴリズム的・環境的ボトルネックを解決するために,ProMMSearchAgentを導入し,マルチモーダル検索のための新しいSim-to-Realトレーニングパラダイムを構築した。
ポリシー学習を決定論的で局所的な静的なサンドボックスに分離する。
重要なことは、この制約された環境で効果的に学習するために、イントロスペクティブなプロセス指向報酬を提案する。
エージェント自身のパラメトリック知識境界を探索することにより、視覚的または事実的不確実な場合にのみ、マルチモーダルまたはテキスト検索を開始することによって、適切な認知判断を明示的に報いる、密集した行動メタデータを生成する。
大規模な実験では、ローカルに訓練されたポリシーが、ゼロショットをライブのGoogle Search APIに転送することを示した。
ProMMSearchAgentは新たなSOTA性能を実現し、FVQAテストでは+5.1%、InfoSeekでは+6.3%、MMSearchでは+11.3%を上回った。
関連論文リスト
- Empowering RepoQA-Agent based on Reinforcement Learning Driven by Monte-carlo Tree Search [70.63903518295785]
モンテカルロ木探索によるエージェント強化学習フレームワークRepoSearch-R1を紹介する。
RepoSearch-R1に基づいて,リポジトリ質問応答タスク用に設計されたRepoQA-Agentを構築する。
論文 参考訳(メタデータ) (2025-10-30T09:10:36Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。