論文の概要: Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
- arxiv url: http://arxiv.org/abs/2602.05717v1
- Date: Thu, 05 Feb 2026 14:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.98092
- Title: Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
- Title(参考訳): アンコレッド政策最適化: 支持制約による再定形化による探索崩壊の軽減
- Authors: Tianyi Wang, Long Li, Hongcan Guo, Yibiao Chen, Yixia Li, Yong Wang, Yun Chen, Guanhua Chen,
- Abstract要約: 我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
- 参考スコア(独自算出の注目度): 14.911955979675772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is increasingly viewed as a tree pruning mechanism. However, we identify a systemic pathology termed Recursive Space Contraction (RSC), an irreversible collapse driven by the combined dynamics of positive sharpening and negative squeezing, where the sampling probability of valid alternatives vanishes. While Kullback-Leibler (KL) regularization aims to mitigate this, it imposes a rigid Shape Matching constraint that forces the policy to mimic the reference model's full density, creating a gradient conflict with the sharpening required for correctness. We propose Anchored Policy Optimization (APO), shifting the paradigm from global Shape Matching to Support Coverage. By defining a Safe Manifold based on the reference model's high-confidence support, APO permits aggressive sharpening for efficiency while selectively invoking a restorative force during error correction to prevent collapse. We theoretically derive that APO serves as a gradient-aligned mechanism to maximize support coverage, enabling an Elastic Recovery that re-inflates valid branches. Empirical evaluations on mathematical benchmarks demonstrate that APO breaks the accuracy-diversity trade-off, significantly improving Pass@1 while restoring the Pass@K diversity typically lost by standard policy gradient methods.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,木刈りのメカニズムとして注目されている。
しかし,再帰的空間収縮(Recursive Space Contraction,RSC)と呼ばれる,正のシャープニングと負のスクイージングの併用によって引き起こされる不可逆的な崩壊は,有効な代替品のサンプリング確率がなくなる。
Kullback-Leibler (KL) の正規化は、これを緩和することを目的としているが、これは厳密な形状マッチング制約を課し、参照モデルの完全な密度を模倣するようにポリシーを強制し、正確性に必要なシャープ化と矛盾する。
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトするアンコレッドポリシー最適化(APO)を提案する。
APOは、基準モデルの高信頼サポートに基づいてセーフマニフォールドを定義することにより、エラー修正中に復元力を選択的に呼び起こして、破壊を防止するとともに、効率の急激なシャープ化を許容する。
理論的には、APOはサポートカバレッジを最大化するための勾配整列機構として機能し、有効なブランチを再インフレするElastic Recoveryを可能にします。
数学ベンチマークにおける実証的な評価は、APOが精度と多様性のトレードオフを破り、Pass@1を著しく改善し、Pass@Kの多様性は標準方針勾配法によって通常失われていることを示している。
関連論文リスト
- Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Stochastic Decision Horizons for Constrained Reinforcement Learning [22.755234154139174]
CMDP(Constrained Markov decision process)は、強化学習において、安全やその他の補助的目的などの制約を扱うための原則的モデルを提供する。
そこで我々は,制約違反が報酬の貢献を減らし,状態行動依存の継続を通じて効果的な計画的地平を短縮する,状態行動依存型意思決定地平に基づく推論の定式化として制御を提案する。
そこで我々は,SAC/MPO方式の政策改善につながる異なる構造を生かして,同じ生存重み付けリターンを共有する,吸収と仮想終了という2つの違反セマンティクスを提案する。
論文 参考訳(メタデータ) (2026-02-04T14:27:16Z) - Expected Return Causes Outcome-Level Mode Collapse in Reinforcement Learning and How to Fix It with Inverse Probability Scaling [2.8825582215429186]
結果-レベルモードの崩壊は、期待されたリターン自体の構造的な結果であることを示す。
学習信号から結果周波数を除去する逆確率スケーリングという,最小限の補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T13:03:33Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Reparameterization Proximal Policy Optimization [35.59197802340267]
ポリシーグラデーション(RPG)は、微分可能なダイナミクスを活用することで、サンプル効率を改善することを約束している。
我々は、安定なサンプル再利用を可能にするために代理目的を利用するPPO(Proximal Policy Optimization)からインスピレーションを得ている。
本稿では,安定かつサンプル効率の高いRPGベースの手法であるRe Parameters Proximal Policy Optimization (RPO)を提案する。
RPOはRPGに適したポリシー勾配クリッピング機構を用いることで、複数のエポック上で安定したサンプル再利用を可能にする。
論文 参考訳(メタデータ) (2025-08-08T10:50:55Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。