論文の概要: Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe
- arxiv url: http://arxiv.org/abs/2603.21972v1
- Date: Mon, 23 Mar 2026 13:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.689611
- Title: Demystifying Reinforcement Learning for Long-Horizon Tool-Using Agents: A Comprehensive Recipe
- Title(参考訳): 長期ツール利用エージェントのデミスティフィケーション強化学習 : 総合的なレシピ
- Authors: Xixi Wu, Qianguo Sun, Ruiyang Zhang, Chao Song, Junlong Wu, Yiyan Qi, Hong Cheng,
- Abstract要約: 我々は,報酬形成,モデルスケーリング,データ構成,アルゴリズムの選択,環境安定性の5つの軸に沿ってエージェントRL設計空間を分解する。
蒸留法に基づいて,我々のRL学習モデルはTravelPlannerの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 15.246778187028282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is essential for evolving Large Language Models (LLMs) into autonomous agents capable of long-horizon planning, yet a practical recipe for scaling RL in complex, multi-turn environments remains elusive. This paper presents a systematic empirical study using TravelPlanner, a challenging testbed requiring tool orchestration to satisfy multifaceted constraints. We decompose the agentic RL design space along 5 axes: reward shaping, model scaling, data composition, algorithm selection, and environmental stability. Our controlled experiments yield 7 key takeaways, e.g., (1) reward and algorithm choices are scale-dependent as smaller models benefit from staged rewards and enhanced exploration, whereas larger models converge efficiently with simpler dense rewards, (2) ~ 1K training samples with a balanced difficulty mixture mark a sweet spot for both in-domain and out-of-domain performance, and (3) environmental stability is critical to prevent policy degradation. Based on our distilled recipe, our RL-trained models achieve state-of-the-art performance on TravelPlanner, significantly outperforming leading LLMs.
- Abstract(参考訳): 強化学習(RL)は大規模言語モデル(LLM)を長期計画が可能な自律エージェントに進化させる上で不可欠であるが、複雑なマルチターン環境においてRLをスケールするための実践的なレシピはいまだ解明されていない。
本稿では,多面的制約を満たすためのツールオーケストレーションを必要とするテストベッドであるTravelPlannerを用いた,体系的な実証的研究を提案する。
我々は,報酬形成,モデルスケーリング,データ構成,アルゴリズムの選択,環境安定性の5つの軸に沿ってエージェントRL設計空間を分解する。
制御された実験では、7つのキーテイクアウト, 例えば, (1) 報酬とアルゴリズムの選択は、より小さなモデルがステージド報酬と拡張探索の恩恵を受けるためスケール依存であり、一方、より大きなモデルはより単純な密度の報酬と効率的に収束し、(2) バランスのとれた難易度混合のサンプルは、ドメイン内およびドメイン外の両方のパフォーマンスのスイートスポットにマークし、(3) 環境安定性は政策劣化を防ぐために重要である。
蒸留法に基づいて,我々のRL学習モデルはTravelPlannerの最先端性能を実現し,先行LLMよりも優れていた。
関連論文リスト
- Simple Recipe Works: Vision-Language-Action Models are Natural Continual Learners with Reinforcement Learning [26.103428215400697]
低ランク適応 (LoRA) の簡単なシーケンスファインチューニング (Seq. FT) は極めて強い。
VLAモデルを用いた連続RL法としてシーケンスファインタニング(Sequential Fine-Tuning)を応用した。
論文 参考訳(メタデータ) (2026-03-12T08:22:39Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning [12.179148605060298]
マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。
デザインスペースを環境、報酬、ポリシーという3つの相互関係の柱に分割します。
これらの知見を,3つの柱にまたがる共同設計を指導する学習レシピに抽出する。
論文 参考訳(メタデータ) (2025-10-01T17:23:04Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。