論文の概要: Demystifying Reinforcement Learning in Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2510.11701v1
- Date: Mon, 13 Oct 2025 17:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.499789
- Title: Demystifying Reinforcement Learning in Agentic Reasoning
- Title(参考訳): エージェント推論におけるデミスティフィケーション強化学習
- Authors: Zhaochen Yu, Ling Yang, Jiaru Zou, Shuicheng Yan, Mengdi Wang,
- Abstract要約: エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
- 参考スコア(独自算出の注目度): 90.3737088727791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the emergence of agentic RL has showcased that RL could also effectively improve the agentic reasoning ability of LLMs, yet the key design principles and optimal practices remain unclear. In this work, we conduct a comprehensive and systematic investigation to demystify reinforcement learning in agentic reasoning from three key perspectives: data, algorithm, and reasoning mode. We highlight our key insights: (i) Replacing stitched synthetic trajectories with real end-to-end tool-use trajectories yields a far stronger SFT initialization; high-diversity, model-aware datasets sustain exploration and markedly improve RL performance. (ii) Exploration-friendly techniques are crucial for agentic RL, such as clip higher, overlong reward shaping, and maintaining adequate policy entropy could improve the training efficiency. (iii) A deliberative strategy with fewer tool calls outperforms frequent tool calls or verbose self-reasoning, improving tool efficiency and final accuracy. Together, these simple practices consistently enhance agentic reasoning and training efficiency, achieving strong results on challenging benchmarks with smaller models, and establishing a practical baseline for future agentic RL research. Beyond these empirical insights, we further contribute a high-quality, real end-to-end agentic SFT dataset along with a high-quality RL dataset, and demonstrate the effectiveness of our insights in boosting the agentic reasoning ability of LLMs across four challenging benchmarks, including AIME2024/AIME2025, GPQA-Diamond, and LiveCodeBench-v6. With our recipes, 4B-sized models could also achieve superior agentic reasoning performance compared to 32B-sized models. Code and models: https://github.com/Gen-Verse/Open-AgentRL
- Abstract(参考訳): 近年, エージェントRLの出現により, RLはLLMのエージェント推論能力を効果的に向上できることが示された。
本研究では,エージェント推論における強化学習を,データ,アルゴリズム,推論モードの3つの重要な視点から,総合的かつ体系的に研究する。
私たちは、重要な洞察を強調します。
一 縫合された合成軌道を実端から実端までの使用軌道に置き換えることで、より強力なSFT初期化が得られ、高多様性でモデル対応のデータセットが探索を継続し、RL性能を著しく向上させる。
(II) 適度な政策エントロピーを維持することで, トレーニング効率を向上させることができる, 高いクリップ, 過剰な報酬形成など, エージェントRLにとって, 探索フレンドリな技術が不可欠である。
3) ツールコールが少ない熟考戦略は, 頻繁なツールコールや冗長な自己推論, ツール効率の向上, 最終的な精度を向上させる。
これらの単純なプラクティスは、エージェント推論とトレーニングの効率を一貫して向上させ、より小さなモデルで挑戦的なベンチマークで強力な結果を得るとともに、将来のエージェントRL研究のための実践的なベースラインを確立する。
これらの経験的洞察以外にも、高品質で実のエンドツーエンドのエージェントSFTデータセットと高品質なRLデータセットを提供し、AIME2024/AIME2025、GPQA-Diamond、LiveCodeBench-v6を含む4つの挑戦的なベンチマークでLLMのエージェント推論能力を高める上での洞察の有効性を実証しています。
われわれのレシピでは、4Bサイズのモデルでは32Bサイズのモデルに比べて優れたエージェント推論性能が得られる。
コードとモデル:https://github.com/Gen-Verse/Open-AgentRL
関連論文リスト
- Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。
RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。
提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文 参考訳(メタデータ) (2025-05-25T00:54:50Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。