論文の概要: PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost
- arxiv url: http://arxiv.org/abs/2603.21383v1
- Date: Sun, 22 Mar 2026 19:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.391223
- Title: PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost
- Title(参考訳): PivotRL: 低コストで高精度なエージェントポストトレーニング
- Authors: Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, Ritu Gala, Charles Wang, Sugam Dipak Devare, Khushi Bhardwaj, Abhibha Gupta, Oleksii Kuchaiev, Jiantao Jiao, Jian Zhang, Venkat Srinivasan,
- Abstract要約: 長距離エージェントタスクのポストトレーニングは、計算効率と一般化の間に緊張関係がある。
本稿では,既存のSFTトラジェクトリで動作する新しいフレームワークであるPivotRLを紹介し,SFTの計算効率とE2E RLのOOD精度を組み合わせた。
PivotRLはNVIDIAのNemotron-3-Super-120B-A12Bで採用され、量産規模のエージェント・ポストトレーニングにおけるワークホースとして機能している。
- 参考スコア(独自算出の注目度): 22.906887375657664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.
- Abstract(参考訳): 長距離エージェントタスクのポストトレーニングは、計算効率と一般化の間に緊張関係がある。
教師付き微調整(SFT)は計算効率が高いが、しばしばドメイン外劣化(OOD)に悩まされる。
逆に、エンド・ツー・エンド強化学習(E2E RL)はOOD能力を保っているが、多くのオン・ポリシーのロールアウトのために高い計算コストを発生させる。
本稿では,既存のSFTトラジェクトリで動作する新しいフレームワークであるPivotRLを紹介し,SFTの計算効率とE2E RLのOOD精度を組み合わせた。
PivotRLは2つの主要なメカニズムに依存している: 第一に、ローカル、オン・ポリシーのロールアウトとピボットのフィルタを実行する: サンプルアクションが結果に高いばらつきを示す情報中間旋回、第二に、SFTデータデモと厳密な文字列マッチングを要求するのではなく、機能等価アクションに対する報酬を利用する。
これらのメカニズムは,学習課題とは無関係な行動に基づいて,政策確率を最大に保ちながら,高い自然勾配ノルムを持つ強い学習信号を動機付けることを理論的に示す。
同一データにおける標準的なSFTと比較して、PivotRLは4つのエージェントドメインの平均でドメイン内精度+4.17%、非エージェントタスクでは+10.04%高いOOD精度を実現している。
特に、エージェントコーディングタスクでは、PivotRLはE2E RLとの競合精度を4倍のロールアウトターンで達成している。
PivotRLはNVIDIAのNemotron-3-Super-120B-A12Bで採用され、量産規模のエージェント・ポストトレーニングにおけるワークホースとして機能している。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Quagmires in SFT-RL Post-Training: When High SFT Scores Mislead and What to Use Instead [20.446287312285648]
我々は,高いSFTスコアがRL後の性能向上に寄与するかどうかを検討した。
高いSFTスコアは、より単純あるいはより均一なデータに偏りがあり、その後のRLゲインやスケールアップ後の学習効果を確実に予測できない。
本稿では,RL結果に対して強力なプロキシを提供するために,代替指標について検討し,ホールドアウト推論例とPass@large kパフォーマンスについて一般化損失を同定する。
論文 参考訳(メタデータ) (2025-10-02T02:57:00Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。