論文の概要: TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents
- arxiv url: http://arxiv.org/abs/2606.05784v1
- Date: Thu, 04 Jun 2026 07:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.614449
- Title: TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents
- Title(参考訳): TAPO:マルチモーダル検索エージェントのクレジット・トランスファーによるツール・アウェア・ポリシー最適化
- Authors: Chengqi Dong, Chuhuai Yue, Hang He, yandong liu, Fenghe Tang, S Kevin Zhou, Xiaohan Wang, Jiajun Chai, Guojun Yin,
- Abstract要約: ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。
本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
- 参考スコア(独自算出の注目度): 54.08846865906602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify and formally characterize credit misassignment as a systematic failure mode of GRPO in tool-augmented multimodal search agents: its uniform broadcast of trajectory-level advantages to all tokens causes valuable tool-use steps in failing trajectories to be penalized no differently from valueless ones. We further empirically quantify the scale of this phenomenon. Over half of failing trajectories and failing tool-use actions exhibit correctable credit misassignment, demonstrating that the wasted training signal is both substantial and structurally exploitable. Building on this insight, we propose Tool-Aware Policy Optimization (TAPO), which exploits the parameter-determinism property of information-acquisition tools: similar call parameters define equivalent information-acquisition actions and should therefore share comparable action credit. TAPO constructs counterfactual witnesses within the current training batch and compensates misassigned negative credit via confidence-gated conservative advantage correction. It requires no additional annotation, models, or sampling, and introduces negligible computational overhead. Across multiple multimodal search benchmarks, TAPO delivers consistent, plug-and-play improvements over strong baselines for three mainstream RL algorithms (GRPO, GSPO, and SAPO). Our code and models will be publicly released upon acceptance.
- Abstract(参考訳): ツール拡張マルチモーダルサーチエージェントにおけるGRPOの体系的障害モードとして,クレジットミス割り当てを識別し,形式的に特徴付ける。
我々はさらにこの現象の規模を実証的に定量化する。
軌道の故障とツール使用動作の失敗の半数以上は、信用ミスの修正が可能であり、無駄なトレーニング信号が実質的かつ構造的に悪用されていることを証明している。
この知見に基づいて,情報取得ツールのパラメータ決定性を利用するツール・アウェア・ポリシー・オプティマイゼーション(TAPO)を提案する。
TAPOは、現在のトレーニングバッチ内に、偽事実の証人を構築し、信頼を付与した保守的優位性補正を通じて、誤った署名された負の信用を補償する。
追加のアノテーション、モデル、サンプリングは必要とせず、無視できる計算オーバーヘッドを導入する。
複数のマルチモーダル検索ベンチマークを通じて、TAPOは、3つの主流RLアルゴリズム(GRPO、GSPO、SAPO)の強力なベースラインに対して、一貫したプラグアンドプレイの改善を提供する。
私たちのコードとモデルは受け入れ次第公開されます。
関連論文リスト
- VerifyMAS: Hypothesis Verification for Failure Attribution in LLM Multi-Agent Systems [79.51005192758262]
大規模言語モデル駆動型マルチエージェントシステムは複雑なタスクで優れている。
しかし、信頼性の低いエージェントは、システムレベルの信頼性にとって重要なボトルネックである。
本稿では,エージェント故障の帰属に関する仮説検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-17T14:09:35Z) - Interactive Critique-Revision Training for Reliable Structured LLM Generation [18.00222080273147]
DPA-GRPOは,構成された検証器の介入による2人プレイヤジェネレータゲームのためのペアアクショントレーニング手法である。
我々は,非正規化ゲームを分析し,厳格に低いリワード介入やリビジョン行動に対する肯定的な確率が,一側偏差を生み出すことを示す。
TaxCalc TY24の実験では、DPA-GRPOはゼロショット生成とジェネレータのみのRLベースラインよりも構造化された決定精度を向上させる。
論文 参考訳(メタデータ) (2026-05-08T17:00:38Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models [27.250148827297604]
HDPOは、ツールの効率を競合するスカラー目標から厳格な条件に書き換えるフレームワークです。
私たちのモデルであるMetisは、推論精度を同時に高めながら、ツールの呼び出しを桁違いに削減します。
論文 参考訳(メタデータ) (2026-04-09T17:59:57Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches [4.364595470673757]
Portfolio Beam Search (PBS) はビームサーチ (BS) の簡便な代替手段である
我々は、推論時に逐次復号アルゴリズムに統合される不確実性を考慮した多様化機構を開発する。
D4RLベンチマークにおけるPBSの有効性を実証的に実証した。
論文 参考訳(メタデータ) (2025-02-13T15:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。