論文の概要: When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization for Long-Horizon LLM Agent Training
- arxiv url: http://arxiv.org/abs/2606.05885v1
- Date: Thu, 04 Jun 2026 08:54:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.670062
- Title: When Denser Credit Is Not Enough: Evidence-Calibrated Policy Optimization for Long-Horizon LLM Agent Training
- Title(参考訳): デンザークレジットが不十分な場合--長期 LLM エージェントトレーニングのためのエビデンス校正政策最適化
- Authors: Yuanfan Li, Qi Zhou, Wenjing Duan, Lu Chen,
- Abstract要約: Evidence-Calibrated Policy Optimization (ECPO) は、ポリシー更新の前にステップレベルのクレジットを校正する、批判のないポリシー最適化アルゴリズムである。
ECPOは強いベースラインを一貫して上回り、Qwen2.5-1.5BでALFWorld/WebShopでGGPOを+5.2/+7.3成功点で改善した。
- 参考スコア(独自算出の注目度): 8.367896852036699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon LLM agents require reinforcement learning methods that can assign credit to intermediate decisions under sparse and delayed rewards. Recent group-based methods such as GiGPO improve over GRPO by constructing step-level advantages at repeated anchor states. However, we show that such dense credit can be statistically unreliable: under limited rollouts, rare but lucky actions may receive overly large advantages, producing divergent anchor bias and late-stage training oscillation. We propose Evidence-Calibrated Policy Optimization (ECPO), a critic-free policy optimization algorithm that calibrates step-level credit before policy updates. ECPO combines Evidence-Calibrated Action Advantage, which groups rollouts by canonical actions and shrinks low-count estimates, with Variance-Gated Credit Weighting, which suppresses anchor states dominated by within-action noise. Experiments on ALFWorld and WebShop with Qwen2.5-1.5B/7B show that ECPO consistently outperforms strong baselines, improving GiGPO by +5.2/+7.3 success points on ALFWorld/WebShop with Qwen2.5-1.5B while adding only 0.1% additional advantage-computation overhead.
- Abstract(参考訳): ロングホライゾンLLMエージェントは、スパースおよび遅延報酬の下で中間決定に信用を割り当てることができる強化学習方法を必要とする。
GiGPOのような最近のグループベースの手法は、繰り返しアンカー状態においてステップレベルの優位性を構築することでGRPOよりも改善されている。
限られたロールアウトの下では、稀だがラッキーな行動は、過度に大きな利点を受け、発散したアンカーバイアスと後期訓練の発振を引き起こす可能性がある。
Evidence-Calibrated Policy Optimization (ECPO) は、ポリシー更新の前にステップレベルのクレジットを校正する、批判のないポリシー最適化アルゴリズムである。
ECPOはEvidence-Calibrated Action AdvantageとVariance-Gated Credit Weightingを組み合わせることで、標準アクションによるロールアウトをグループ化し、低数の見積もりを縮小する。
Qwen2.5-1.5B/7BによるALFWorldとWebShopの実験は、ECPOが強いベースラインを一貫して上回り、Qwen2.5-1.5BでALFWorld/WebShopの成功点を+5.2/+7.3改善し、アドバンテージ計算のオーバーヘッドをわずか0.1%増やしたことを示している。
関連論文リスト
- One-Way Policy Optimization for Self-Evolving LLMs [63.8638342097375]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)の推論能力を拡張するための,有望なパラダイムとなっている。
本稿では,最適化方向を更新等級から切り離す手法である1-Way Policy Optimization (OWPO)を提案する。
実験の結果,OWPOはDAPO,OPD,MOPDなどの強いベースラインより優れていた。
論文 参考訳(メタデータ) (2026-05-21T08:25:27Z) - Advantage Collapse in Group Relative Policy Optimization: Diagnosis and Mitigation [13.272542054938258]
非効率な勾配でトレーニングバッチの割合を定量化する最初の指標であるAdvantage Collapse Rate (ACR)を導入する。
次に、仮想報酬サンプルを注入するGRPOの軽量拡張であるAdaptive Virtual Sample Policy Optimization (AVSPO)を提案する。
AVSPOはGRPOに対して58~63%の利害崩壊を減少させ、すべてのモデルスケールで4~6ポイントの一貫した精度向上をもたらす。
論文 参考訳(メタデータ) (2026-05-20T12:57:37Z) - Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization [47.7937991619078]
本稿では,プロセスの監督をグループ相対的な政策最適化に統合するフレームワークであるコントリビューション重み付きGRPOを提案する。
CW-GRPOは、LLM判定器を用いて、検索ラウンド毎の検索ユーティリティと推論精度を評価し、ラウンド毎のコントリビューションスコアを生成する。
複数の知識集約型ベンチマークの実験では、CW-GRPOはQwen3-8Bでは5.0%、Qwen3-1.7Bでは6.3%、標準GRPOより優れていた。
論文 参考訳(メタデータ) (2026-04-15T17:37:59Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。