論文の概要: Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
- arxiv url: http://arxiv.org/abs/2602.05717v1
- Date: Thu, 05 Feb 2026 14:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.98092
- Title: Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
- Title(参考訳): アンコレッド政策最適化: 支持制約による再定形化による探索崩壊の軽減
- Authors: Tianyi Wang, Long Li, Hongcan Guo, Yibiao Chen, Yixia Li, Yong Wang, Yun Chen, Guanhua Chen,
- Abstract要約: 我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
- 参考スコア(独自算出の注目度): 14.911955979675772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is increasingly viewed as a tree pruning mechanism. However, we identify a systemic pathology termed Recursive Space Contraction (RSC), an irreversible collapse driven by the combined dynamics of positive sharpening and negative squeezing, where the sampling probability of valid alternatives vanishes. While Kullback-Leibler (KL) regularization aims to mitigate this, it imposes a rigid Shape Matching constraint that forces the policy to mimic the reference model's full density, creating a gradient conflict with the sharpening required for correctness. We propose Anchored Policy Optimization (APO), shifting the paradigm from global Shape Matching to Support Coverage. By defining a Safe Manifold based on the reference model's high-confidence support, APO permits aggressive sharpening for efficiency while selectively invoking a restorative force during error correction to prevent collapse. We theoretically derive that APO serves as a gradient-aligned mechanism to maximize support coverage, enabling an Elastic Recovery that re-inflates valid branches. Empirical evaluations on mathematical benchmarks demonstrate that APO breaks the accuracy-diversity trade-off, significantly improving Pass@1 while restoring the Pass@K diversity typically lost by standard policy gradient methods.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,木刈りのメカニズムとして注目されている。
しかし,再帰的空間収縮(Recursive Space Contraction,RSC)と呼ばれる,正のシャープニングと負のスクイージングの併用によって引き起こされる不可逆的な崩壊は,有効な代替品のサンプリング確率がなくなる。
Kullback-Leibler (KL) の正規化は、これを緩和することを目的としているが、これは厳密な形状マッチング制約を課し、参照モデルの完全な密度を模倣するようにポリシーを強制し、正確性に必要なシャープ化と矛盾する。
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトするアンコレッドポリシー最適化(APO)を提案する。
APOは、基準モデルの高信頼サポートに基づいてセーフマニフォールドを定義することにより、エラー修正中に復元力を選択的に呼び起こして、破壊を防止するとともに、効率の急激なシャープ化を許容する。
理論的には、APOはサポートカバレッジを最大化するための勾配整列機構として機能し、有効なブランチを再インフレするElastic Recoveryを可能にします。
数学ベンチマークにおける実証的な評価は、APOが精度と多様性のトレードオフを破り、Pass@1を著しく改善し、Pass@Kの多様性は標準方針勾配法によって通常失われていることを示している。
関連論文リスト
- BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Amortized Reasoning Tree Search: Decoupling Proposal and Decision in Large Language Models [2.5170433424424874]
Reinforcement Learning with Verifiable Rewardsは、大規模言語モデルにおける厳格な推論能力を取り入れるための支配的なパラダイムとして、自らを確立している。
このアライメントプロセスにおいて重要な病理は、有効だが稀な(ベースモデル分布下での低様相)推論経路の体系的抑制である。
本稿では,ベースモデルの潜伏多様性を捨てることなく,この崩壊を防止すべく,ARTS(Amortized Reasoning Tree Search)を提案する。
論文 参考訳(メタデータ) (2026-02-13T11:52:50Z) - Mitigating Mismatch within Reference-based Preference Optimization [55.07698254211876]
直接選好最適化(DPO)は、大規模な言語モデルのオフライン選好アライメントのデファクトスタンダードとなっている。
DPOは、信頼された領域内で更新を規則化することでトレーニングを安定化する参照に対して、各更新を重み付けする。
この依存は、参照モデルが拒否された応答を好む悲観的なペアにとって問題となる。
DPOを変更して、$_-_mathrmref$を$_-max0,_mathrmref$に置き換えることで、悲観的な場合、参照を中立的に扱うようにします。
論文 参考訳(メタデータ) (2026-02-12T12:55:51Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Stochastic Decision Horizons for Constrained Reinforcement Learning [22.755234154139174]
CMDP(Constrained Markov decision process)は、強化学習において、安全やその他の補助的目的などの制約を扱うための原則的モデルを提供する。
そこで我々は,制約違反が報酬の貢献を減らし,状態行動依存の継続を通じて効果的な計画的地平を短縮する,状態行動依存型意思決定地平に基づく推論の定式化として制御を提案する。
そこで我々は,SAC/MPO方式の政策改善につながる異なる構造を生かして,同じ生存重み付けリターンを共有する,吸収と仮想終了という2つの違反セマンティクスを提案する。
論文 参考訳(メタデータ) (2026-02-04T14:27:16Z) - Expected Return Causes Outcome-Level Mode Collapse in Reinforcement Learning and How to Fix It with Inverse Probability Scaling [2.8825582215429186]
結果-レベルモードの崩壊は、期待されたリターン自体の構造的な結果であることを示す。
学習信号から結果周波数を除去する逆確率スケーリングという,最小限の補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T13:03:33Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Reparameterization Proximal Policy Optimization [35.59197802340267]
ポリシーグラデーション(RPG)は、微分可能なダイナミクスを活用することで、サンプル効率を改善することを約束している。
我々は、安定なサンプル再利用を可能にするために代理目的を利用するPPO(Proximal Policy Optimization)からインスピレーションを得ている。
本稿では,安定かつサンプル効率の高いRPGベースの手法であるRe Parameters Proximal Policy Optimization (RPO)を提案する。
RPOはRPGに適したポリシー勾配クリッピング機構を用いることで、複数のエポック上で安定したサンプル再利用を可能にする。
論文 参考訳(メタデータ) (2025-08-08T10:50:55Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。