論文の概要: ANO: A Principled Approach to Robust Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.02320v1
- Date: Mon, 04 May 2026 08:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.189028
- Title: ANO: A Principled Approach to Robust Policy Optimization
- Title(参考訳): ANO:ロバスト政策最適化のための原則的アプローチ
- Authors: Yiheng Zhang, Yiming Wang, Kaiyan Zhao, Zhenglin Wan, Jiayu Chen, Leong Hou U,
- Abstract要約: 近似ポリシー最適化は深いRLを支配しているが、根本的なジレンマに直面している。
その「硬い切り抜き」メカニズムは、外れ値から貴重な情報を排除し、サンプルの非効率性をもたらす。
本稿では,モノトニック勾配から動的外乱抑制へのパラダイムシフトである再帰的影響原理を提案する。
- 参考スコア(独自算出の注目度): 19.004647288017814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) dominates deep RL but faces a fundamental dilemma. Its "hard clipping" mechanism discards valuable gradient information from outliers, leading to sample inefficiency. Conversely, removing clipping (as in SPO) exposes optimization to unbounded gradients, causing significant instability and hyperparameter sensitivity. To resolve this, we establish a Unified Trust Region Framework that generalizes existing objectives. Within this framework, we derive Anchored Neighborhood Optimization (ANO) based on a set of design principles. We identify that the failure of standard policy gradients stems from a misapplication of gradient influence on outliers. We propose the Redescending Influence Principle, a paradigm shift from monotonic penalties (SPO) and hard-thresholding (PPO) to dynamic outlier suppression, and prove its necessity for stability in high-variance stochastic optimization. Theoretically, we prove ANO possesses the minimal structural complexity required for robust optimization. Empirically, ANO achieves state-of-the-art performance on MuJoCo benchmarks, significantly outperforming PPO and SPO. Notably, ANO demonstrates superior stability, preventing policy collapse even under aggressive hyperparameters (e.g., learning rates 3x larger than standard) where PPO fails completely.
- Abstract(参考訳): 近似政策最適化(PPO)は深いRLを支配しているが、基本的なジレンマに直面している。
その「硬い切り抜き」機構は、貴重な勾配情報を外れ値から取り除き、サンプルの非効率性をもたらす。
逆に(SPOのように)クリッピングを除去すると、非有界勾配への最適化が明らかになり、不安定性と過パラメータ感度が著しく低下する。
これを解決するため,既存の目的を一般化する統一信頼地域枠組を構築した。
このフレームワークでは、一連の設計原則に基づいて、Anchored Neighborhood Optimization(ANO)を導出します。
標準政策勾配の故障は、外乱に対する勾配の影響の誤用に起因すると確認する。
本研究では,モノトニックペナルティ (SPO) とハードスレッディング (PPO) から動的外乱抑制へのパラダイムシフトである再帰的影響原理を提案し,高分散確率最適化における安定性の必要性を証明した。
理論的には、ANOはロバストな最適化に必要な最小限の構造的複雑さを持っていることを証明している。
実証的には、ANOはMuJoCoベンチマークで最先端のパフォーマンスを達成し、PPOとSPOを大きく上回っている。
特に、ANOは優れた安定性を示し、PPOが完全に失敗する攻撃的なハイパーパラメータ(例えば、学習速度が標準より3倍大きい)の下でも、政策崩壊を防ぐ。
関連論文リスト
- Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation [8.112649652437705]
この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
論文 参考訳(メタデータ) (2026-02-11T02:18:27Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ADARL: Adaptive Low-Rank Structures for Robust Policy Learning under Uncertainty [28.291179179647795]
我々は、ロバスト性を改善する二段階最適化フレームワークであるtextbfAdaptive Rank Representation (AdaRL) を提案する。
下位レベルでは、AdaRLは、センチュロイドモデルの周りにあるワッサーシュタイン球からサンプリングされた力学を用いて、固定ランク制約の下でポリシー最適化を行う。
上層では、偏微分トレードオフのバランスをとるためにランクを適応的に調整し、ポリシーパラメータを低階多様体に投影する。
論文 参考訳(メタデータ) (2025-10-13T20:05:34Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。