論文の概要: Planner-R1: Reward Shaping Enables Efficient Agentic RL with Smaller LLMs
- arxiv url: http://arxiv.org/abs/2509.25779v2
- Date: Wed, 01 Oct 2025 20:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 12:04:55.868139
- Title: Planner-R1: Reward Shaping Enables Efficient Agentic RL with Smaller LLMs
- Title(参考訳): Planner-R1: より小さなLLMを用いた効率的なエージェントRLを実現するリワード整形
- Authors: Siyu Zhu, Yanbin Jiang, Hejian Sang, Shao Tang, Qingquan Song, Biao He, Rohit Jain, Zhipeng Wang, Alborz Geramifard,
- Abstract要約: textscTravelPlannerベンチマークを用いて,大規模言語モデルを用いたエージェントRLについて検討した。
われわれのアプローチである textscNatural-R1 は、わずか180のトレーニングクエリで textbf56.9% のファイナルパスレートを達成した。
- 参考スコア(独自算出の注目度): 10.044336754070203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigated Agentic RL with large language models on the \textsc{TravelPlanner} benchmark. Our approach, \textsc{Planner-R1}, achieved a \textbf{56.9\%} final-pass rate with only 180 training queries, a $2.7\times$ improvement over GPT-5's $21.2\%$ baseline and the strongest agentic result on the public leaderboard. A central finding was that smaller models (8B) were highly responsive to reward shaping: with dense process-level signals, they reached competitive performance while being $3.5\times$ more compute-efficient and $1.5\times$ more memory-efficient than 32B models. Larger models were more robust under sparse rewards but exhibited smaller relative gains from shaping and higher variance across runs. While curriculum learning offered no significant benefit, shaped rewards consistently amplified learning dynamics, making 8B models the most efficient setting for agentic RL. Crucially, these gains did not come at the cost of overfitting: fine-tuned models mostly maintained or exceeded baseline performance on out-of-domain tasks, including \textsc{Multi-IF}, \textsc{NaturalPlan}, and $\tau$-\textsc{Bench}. These results establish reward shaping as a decisive lever for scaling agentic RL, highlight the competitive strength of smaller models, and demonstrate that efficiency can be achieved without sacrificing generalization.
- Abstract(参考訳): 我々は,textsc{TravelPlanner}ベンチマークを用いて,大規模言語モデルを用いたエージェントRLについて検討した。
我々のアプローチである‘textsc{Planner-R1} は180のトレーニングクエリしか持たず,GPT-5 の 21.2\% のベースラインよりも 2.7\times$ の改善と,公開リーダボード上で最強のエージェント的結果を得た。
中心的な発見は、より小さなモデル(8B)が報酬形成に非常に反応し、密集したプロセスレベルの信号を持ち、3.5\times$より計算効率が高く、1.5\times$32Bよりメモリ効率が高いという競合性能に達したことである。
より大型のモデルでは、スパース報酬の下ではより堅牢であったが、成形による相対的な利得は小さく、ラン間のばらつきも高かった。
カリキュラム学習には大きなメリットはなかったが、8BモデルはエージェントRLの最も効率的な設定となった。
細調整されたモデルは、主にドメイン外のタスクでベースラインのパフォーマンスを維持または上回った: \textsc{Multi-IF}, \textsc{NaturalPlan}, $\tau$-\textsc{Bench}. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
これらの結果は、エージェントRLをスケーリングするための決定的なレバーとして報酬形成を確立し、より小さなモデルの競争力を強調し、一般化を犠牲にすることなく効率が達成できることを実証する。
関連論文リスト
- Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。
DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。
我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文 参考訳(メタデータ) (2025-05-28T12:56:04Z) - Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。
高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。
1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文 参考訳(メタデータ) (2025-02-05T18:57:40Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - RLx2: Training a Sparse Deep Reinforcement Learning Model from Scratch [23.104546205134103]
深層強化学習(DRL)モデルの訓練は通常、高いコストを必要とする。
DRLモデルの圧縮は、トレーニングアクセラレーションとモデル展開に大きな可能性を秘めている。
我々は,「textbfRigged textbfReinforcement textbfLearning textbfLottery (RLx2) 」という,新しいスパースDRLトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T12:18:43Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。