論文の概要: Directional-Clamp PPO
- arxiv url: http://arxiv.org/abs/2511.02577v1
- Date: Tue, 04 Nov 2025 13:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.058821
- Title: Directional-Clamp PPO
- Title(参考訳): Directional-Clamp PPO
- Authors: Gilad Karpel, Ruida Zhou, Shoham Sabach, Mohammad Ghavamzadeh,
- Abstract要約: 近似ポリシー最適化(PPO)は、最も成功した深層強化学習アルゴリズムの1つである。
本稿では,厳密な「暗い」方向に向かう動作をペナルティ化するDClamp-PPOアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.43187588048831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) is widely regarded as one of the most successful deep reinforcement learning algorithms, known for its robustness and effectiveness across a range of problems. The PPO objective encourages the importance ratio between the current and behavior policies to move to the "right" direction -- starting from importance sampling ratios equal to 1, increasing the ratios for actions with positive advantages and decreasing those with negative advantages. A clipping function is introduced to prevent over-optimization when updating the importance ratio in these "right" direction regions. Many PPO variants have been proposed to extend its success, most of which modify the objective's behavior by altering the clipping in the "right" direction regions. However, due to randomness in the rollouts and stochasticity of the policy optimization, we observe that the ratios frequently move to the "wrong" direction during the PPO optimization. This is a key factor hindering the improvement of PPO, but it has been largely overlooked. To address this, we propose the Directional-Clamp PPO algorithm (DClamp-PPO), which further penalizes the actions going to the strict "wrong" direction regions, where the advantage is positive (negative) and importance ratio falls below (above) $1 - \beta$ ($1+\beta$), for a tunable parameter $\beta \in (0, 1)$. The penalty is by enforcing a steeper loss slope, i.e., a clamp, in those regions. We demonstrate that DClamp-PPO consistently outperforms PPO, as well as its variants, by focusing on modifying the objective's behavior in the "right" direction, across various MuJoCo environments, using different random seeds. The proposed method is shown, both theoretically and empirically, to better avoid "wrong" direction updates while keeping the importance ratio closer to 1.
- Abstract(参考訳): PPO(Proximal Policy Optimization)は、様々な問題にまたがる堅牢性と有効性で知られる、最も成功した深層強化学習アルゴリズムの1つである。
PPOの目的は、現在の政策と行動政策の重要度比を「右」方向に移動させることを奨励し、重要度サンプリング比から1に等しいようにし、ポジティブな利点を持つ行動の比率を増やし、ネガティブな優位性を持つ行動の比率を下げることである。
これらの「右」方向領域の重要度を更新する際に、過度に最適化されないようにクリップ機能を導入する。
多くのPPO変種は、その成功を拡大するために提案されており、そのほとんどは「右」方向の領域でクリッピングを変更することで目的の振る舞いを変更するものである。
しかし, 政策最適化のロールアウトのランダム性や確率性から, PPO最適化の際, 比率が「弱い」方向に頻繁に移動することが明らかとなった。
これはPPOの改善を妨げる重要な要因であるが、ほとんど見過ごされてきた。
これを解決するために、厳密な「弱い」方向領域へ進むアクションをさらにペナルティ化するDClamp-PPOアルゴリズム(DClamp-PPO)を提案する。このアルゴリズムでは、$\beta \in (0, 1)$に対して、利点は正(負)であり、重要性比は1- \beta$(1+\beta$)以下である。
罰は、これらの地域でより急な損失勾配、すなわちクランプを強制することによる。
DClamp-PPOは、様々な無作為種子を用いて、様々な MuJoCo 環境において、目的の挙動を「右」方向に修正することに集中することにより、PPOと変種を一貫して上回ることを示した。
提案手法は理論的にも実証的にも,重み付け比を1。
関連論文リスト
- GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。