論文の概要: Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.06627v1
- Date: Fri, 06 Feb 2026 11:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.382827
- Title: Trust Regions Sell, But Who's Buying? Overlap Geometry as an Alternative Trust Region for Policy Optimization
- Title(参考訳): トラスト地域は売却されるが、誰が買うのか? 政策最適化のための代替トラスト地域としてのオーバーラップ・ジオメトリ
- Authors: Gaurish Trivedi, Alakh Sharma, Kartikey Singh Bhandari, Yash Sinha, Pratik Narang, Dhruv Kumar, Jagat Sesh Challa,
- Abstract要約: トラストリージョンメソッドは、Kullback-Leibler (KL) の分岐を介してポリシー更新を制約する。
Bhattacharyya係数による分布重なりを制約した代替信頼領域として重なり幾何を提案する。
我々は、Bhattacharyya-TRPO(BTRPO)とBhattacharyya-PPO(BPPO)を誘導する。
実証的に、オーバーラップベースの更新は、RLiableが測定したロバストネスとアグリゲーションパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 5.217618511306204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard trust-region methods constrain policy updates via Kullback-Leibler (KL) divergence. However, KL controls only an average divergence and does not directly prevent rare, large likelihood-ratio excursions that destabilize training--precisely the failure mode that motivates heuristics such as PPO's clipping. We propose overlap geometry as an alternative trust region, constraining distributional overlap via the Bhattacharyya coefficient (closely related to the Hellinger/Renyi-1/2 geometry). This objective penalizes separation in the ratio tails, yielding tighter control over likelihood-ratio excursions without relying on total variation bounds that can be loose in tail regimes. We derive Bhattacharyya-TRPO (BTRPO) and Bhattacharyya-PPO (BPPO), enforcing overlap constraints via square-root ratio updates: BPPO clips the square-root ratio q = sqrt(r), and BTRPO applies a quadratic Hellinger/Bhattacharyya penalty. Empirically, overlap-based updates improve robustness and aggregate performance as measured by RLiable under matched training budgets, suggesting overlap constraints as a practical, principled alternative to KL for stable policy optimization.
- Abstract(参考訳): 標準信頼領域法は、Kulback-Leibler (KL) の分岐によるポリシー更新を制約する。
しかしながら、KLは平均的な分岐のみを制御し、トレーニングを不安定にする稀で大きな可能性比率の遠足を直接防止しない。
本稿では, 重なり幾何を代替信頼領域として提案し, Bhattacharyya係数(Hellinger/Renyi-1/2幾何と密接に関連している)による分布重なりを制約する。
この目的は、比尾の分離を罰し、テールレジームでゆるやかな全変動境界に依存することなく、可能性比の遠回りをより厳密に制御する。
BTRPO(Bhattacharyya-TRPO)とBhattacharyya-PPO(Bhattacharyya-PPO)を導出し,2乗根比q = sqrt(r)をクリップし,BTRPOは2次Hellinger/Bhattacharyyaのペナルティを適用した。
実証的には、オーバーラップベースの更新は、RLiableが一致したトレーニング予算の下で測定したロバスト性とアグリゲートパフォーマンスを改善し、重複制約を、安定したポリシー最適化のための実践的で原則化された代替手段として提案する。
関連論文リスト
- Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification [14.911955979675772]
我々は,グローバルな形状マッチングからサポートカバレッジへパラダイムをシフトさせるアンコレッドポリシー最適化(APO)を提案する。
APOは精度と多様性のトレードオフを破り、Pass@1を大幅に改善します。
論文 参考訳(メタデータ) (2026-02-05T14:41:57Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Non-Asymptotic Global Convergence of PPO-Clip [23.221917827987625]
本稿では,一般RL設定における決定論的アクターのみのPPOアルゴリズムを解析することにより,PPO-Clipアルゴリズムの理論的基礎を推し進める。
この問題に対して不均一リプシッツの滑らか度条件と Ojasiewicz の不等式を導出する。
論文 参考訳(メタデータ) (2025-12-18T14:06:37Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Off-Policy Evaluation in Markov Decision Processes under Weak Distributional Overlap [3.351714665243138]
我々は,マルコフ決定過程(MDP)における非政治的評価の課題を再考し,分布重なりというより弱い概念の下で検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
我々の実験では、強い分布重なりが保たない場合、適切な乱れが、政治外の正確な評価を可能にする上で重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。