論文の概要: AgentV-RL: Scaling Reward Modeling with Agentic Verifier
- arxiv url: http://arxiv.org/abs/2604.16004v1
- Date: Fri, 17 Apr 2026 12:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.909682
- Title: AgentV-RL: Scaling Reward Modeling with Agentic Verifier
- Title(参考訳): AgentV-RL:エージェント検証器によるスケーリングリワードモデリング
- Authors: Jiazheng Zhang, Ziche Fu, Zhiheng Xi, Wenqing Jing, Mingxu Chai, Wei He, Guoqiang Zhang, Chenghao Fan, Chenxin An, Wenxiang Chen, Zhicheng Liu, Haojie Pan, Dingwei Zhu, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 63.55502685076245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verifiers have been demonstrated to enhance LLM reasoning via test-time scaling (TTS). Yet, they face significant challenges in complex domains. Error propagation from incorrect intermediate reasoning can lead to false positives for seemingly plausible solutions, while lacking external grounding makes verifiers unreliable on computation or knowledge-intensive tasks. To address these challenges, we propose Agentic Verifier, a framework that transforms reward modeling into a multi-turn, tool-augmented deliberative process. We introduce complementary forward and backward agents: one traces solutions from premises to conclusions, while the other re-checks conclusions against their underlying premises. This bidirectional process enables a comprehensive, reliable, and interpretable assessment of solutions. To facilitate practical deployment, we propose AgentV-RL. Through proactive exploration and reinforcement learning, the verifier autonomously interleaves tool-use with internal reasoning. Extensive experiments show that Agentic Verifier yields consistent performance gains under both parallel and sequential TTS. Notably, our 4B variant surpasses state-of-the-art ORMs by 25.2%, positioning it as a promising paradigm for agentic reward modeling.
- Abstract(参考訳): 検証器はテスト時間スケーリング(TTS)によるLCM推論を強化することが実証されている。
しかし、それらは複雑な領域において重大な課題に直面している。
不正確な中間推論からの誤り伝播は、一見可算な解に対して偽陽性をもたらすが、外部基底が欠如しているため、検証は計算や知識集約的なタスクでは信頼できない。
これらの課題に対処するために,報奨モデリングを多ターンツール強化の熟考プロセスに変換するフレームワークであるAgentic Verifierを提案する。
1つは前提から結論までソリューションをトレースし、もう1つは基礎となる前提に対して結論を再確認する。
この双方向プロセスは、ソリューションの包括的で信頼性があり、解釈可能な評価を可能にする。
本稿では,AgentV-RLを提案する。
積極的な探索と強化学習により、検証者は道具使用と内部推論を自律的にインターリーブする。
拡張実験により, エージェント検証器は並列およびシーケンシャルTTSの両方で一貫した性能向上が得られることがわかった。
特に、当社の4Bバージョンは最先端のORMを25.2%上回り、エージェント報酬モデリングの有望なパラダイムとして位置づけています。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents [32.76299758137446]
大規模言語モデル(LLM)ベースのエージェントは、最近、複雑な推論とツールの使用において、環境とのマルチステップのインタラクションを通じて印象的な機能を示した。
これらの軌道にはリッチなフィードバックが含まれており、エージェントを正しい方向に誘導して問題を正しく解くことができる。
モンテカルロ木探索 (MCTS) のような一般的な手法は、探索と搾取を効果的にバランスさせることができるが、それらは様々な軌道間の相互依存を無視している。
エージェントが推論プロセスを反復的に最適化できる自己進化フレームワークSE-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-04T05:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。