論文の概要: ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.03723v1
- Date: Wed, 07 Jan 2026 09:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.386425
- Title: ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization
- Title(参考訳): ETR:政策最適化のためのアウトカムガイド付き弾性信頼領域
- Authors: Shijie Zhang, Kevin Zhang, Zheyuan Gu, Xiang Guo, Rujun Guo, Shaoyu Liu, Guanjun Jiang, Xiaozhao Wang,
- Abstract要約: textbfElastic textbfTrust textbfETRを提案する。
ETRはGRPOを一貫して上回り、より優れた精度を実現し、政策エントロピー劣化を効果的に緩和する。
- 参考スコア(独自算出の注目度): 6.716883192613149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an important paradigm for unlocking reasoning capabilities in large language models, exemplified by the success of OpenAI o1 and DeepSeek-R1. Currently, Group Relative Policy Optimization (GRPO) stands as the dominant algorithm in this domain due to its stable training and critic-free efficiency. However, we argue that GRPO suffers from a structural limitation: it imposes a uniform, static trust region constraint across all samples. This design implicitly assumes signal homogeneity, a premise misaligned with the heterogeneous nature of outcome-driven learning, where advantage magnitudes and variances fluctuate significantly. Consequently, static constraints fail to fully exploit high-quality signals while insufficiently suppressing noise, often precipitating rapid entropy collapse. To address this, we propose \textbf{E}lastic \textbf{T}rust \textbf{R}egions (\textbf{ETR}), a dynamic mechanism that aligns optimization constraints with signal quality. ETR constructs a signal-aware landscape through dual-level elasticity: at the micro level, it scales clipping boundaries based on advantage magnitude to accelerate learning from high-confidence paths; at the macro level, it leverages group variance to implicitly allocate larger update budgets to tasks in the optimal learning zone. Extensive experiments on AIME and MATH benchmarks demonstrate that ETR consistently outperforms GRPO, achieving superior accuracy while effectively mitigating policy entropy degradation to ensure sustained exploration.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、OpenAI o1とDeepSeek-R1の成功によって実証された、大規模言語モデルで推論機能をアンロックするための重要なパラダイムとして登場した。
現在、グループ相対政策最適化(GRPO)は、安定したトレーニングと批判のない効率のため、この分野において支配的なアルゴリズムとなっている。
しかし、GRPOは構造的制限に悩まされており、全てのサンプルに対して一様で静的な信頼領域を課す。
この設計は信号の均質性を暗黙的に仮定するが、これは結果駆動学習の不均一な性質と一致しない前提であり、有利な大きさと分散が著しく変動する。
その結果、静的な制約は、ノイズを十分に抑制しながら、高品質な信号を完全に活用することができず、しばしば急激なエントロピー崩壊を引き起こす。
そこで本稿では,最適化制約を信号品質と整合させる動的機構である \textbf{E}lastic \textbf{T}rust \textbf{R}egions (\textbf{ETR}) を提案する。
マイクロレベルでは、高信頼パスからの学習を加速するために、有利度に基づいてクリッピング境界をスケールし、マクロレベルでは、グループ分散を利用して、最大学習ゾーンのタスクに大きな更新予算を暗黙的に割り当てる。
AIMEおよびMATHベンチマークの大規模な実験により、ETRはGRPOを一貫して上回り、より優れた精度を達成しつつ、持続的な探索を確保するために政策エントロピー劣化を効果的に緩和することを示した。
関連論文リスト
- Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - ESPO: Entropy Importance Sampling Policy Optimization [7.2000276975120014]
エントロピー重要度サンプリングポリシー最適化は、きめ細かい制御とトレーニングの安定性を調整します。
ESPOは予測エントロピーに基づいて配列をグループに分解する。
数学的推論ベンチマークの実験は、ESPOが収束と最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-11-29T14:09:38Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Global Variational Inference Enhanced Robust Domain Adaptation [7.414646586981638]
本稿では,構造を意識したクロスドメインアライメントを実現するために,変分推論による連続的,クラス条件のグローバルな事前学習フレームワークを提案する。
GVI-DAは、潜在特徴再構成によるドメインギャップを最小化し、ランダムサンプリングによるグローバルコードブック学習を用いて後部崩壊を緩和する。
低信頼の擬似ラベルを捨て、信頼性の高いターゲットドメインサンプルを生成することにより、ロバスト性をさらに向上する。
論文 参考訳(メタデータ) (2025-07-04T04:43:23Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。