論文の概要: Exploring Reasoning Reward Model for Agents
- arxiv url: http://arxiv.org/abs/2601.22154v1
- Date: Thu, 29 Jan 2026 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.109529
- Title: Exploring Reasoning Reward Model for Agents
- Title(参考訳): エージェントの推論リワードモデルの検討
- Authors: Kaixuan Fan, Kaituo Feng, Manyuan Zhang, Tianshuo Peng, Zhixun Li, Yilei Jiang, Shuang Chen, Peng Pei, Xunliang Cai, Xiangyu Yue,
- Abstract要約: エージェント強化学習(Agentic RL)は、エージェントが複雑な推論やツールの使用を行えるようにして、顕著な成功を収めた。
ほとんどの手法は依然として、トレーニングに対するスパースな結果ベースの報酬に依存しています。
本稿ではエージェント・リソン・リワードモデル(Agent-RRM)を紹介する。
- 参考スコア(独自算出の注目度): 30.458783880389216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic Reinforcement Learning (Agentic RL) has achieved notable success in enabling agents to perform complex reasoning and tool use. However, most methods still relies on sparse outcome-based reward for training. Such feedback fails to differentiate intermediate reasoning quality, leading to suboptimal training results. In this paper, we introduce Agent Reasoning Reward Model (Agent-RRM), a multi-faceted reward model that produces structured feedback for agentic trajectories, including (1) an explicit reasoning trace , (2) a focused critique that provides refinement guidance by highlighting reasoning flaws, and (3) an overall score that evaluates process performance. Leveraging these signals, we systematically investigate three integration strategies: Reagent-C (text-augmented refinement), Reagent-R (reward-augmented guidance), and Reagent-U (unified feedback integration). Extensive evaluations across 12 diverse benchmarks demonstrate that Reagent-U yields substantial performance leaps, achieving 43.7% on GAIA and 46.2% on WebWalkerQA, validating the effectiveness of our reasoning reward model and training schemes. Code, models, and datasets are all released to facilitate future research.
- Abstract(参考訳): エージェント強化学習(Agentic RL)は、エージェントが複雑な推論やツールの使用を行えるようにして、顕著な成功を収めた。
しかし、ほとんどの手法はいまだに、トレーニングの粗末な結果に基づく報酬に依存している。
このようなフィードバックは中間的推論品質の区別に失敗し、最適以下のトレーニング結果をもたらす。
本稿では,(1)明示的推論トレース,(2)推論欠陥の強調による改善ガイダンスを提供する集中的批評,(3)プロセス性能を評価する総合スコアなど,エージェント軌道に対する構造化されたフィードバックを生成する多面的報酬モデルであるエージェント推論リワードモデル(Agent-RRM)を紹介する。
これらの信号を活用することで、Reagent-C(テキスト強化)、Reagent-R(リワード強化)、Reagent-U(統一フィードバック統合)の3つの統合戦略を体系的に検討する。
12種類のベンチマークで広範囲に評価した結果、Reagent-Uは、GAIAで43.7%、WebWalkerQAで46.2%を達成し、我々の推論報酬モデルとトレーニングスキームの有効性を検証した。
コード、モデル、データセットはすべて、将来の研究を促進するためにリリースされている。
関連論文リスト
- Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Beyond Correctness: Rewarding Faithful Reasoning in Retrieval-Augmented Generation [21.72639961371058]
本稿では,RLに基づく検索エージェントを評価するための総合的な評価フレームワークを提案する。
忠実な推論を促進するために,よりきめ細かな忠実さ報酬を強化学習プロセスに統合する新しい枠組みであるVERITASを紹介する。
論文 参考訳(メタデータ) (2025-10-15T08:17:52Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。