論文の概要: Proximal Policy Optimization with Relative Pearson Divergence
- arxiv url: http://arxiv.org/abs/2010.03290v2
- Date: Mon, 15 Mar 2021 07:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:13:59.085615
- Title: Proximal Policy Optimization with Relative Pearson Divergence
- Title(参考訳): 相対的ピアソン発散による近位政策最適化
- Authors: Taisuke Kobayashi
- Abstract要約: PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 8.071506311915396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent remarkable progress of deep reinforcement learning (DRL) stands on
regularization of policy for stable and efficient learning. A popular method,
named proximal policy optimization (PPO), has been introduced for this purpose.
PPO clips density ratio of the latest and baseline policies with a threshold,
while its minimization target is unclear. As another problem of PPO, the
symmetric threshold is given numerically while the density ratio itself is in
asymmetric domain, thereby causing unbalanced regularization of the policy.
This paper therefore proposes a new variant of PPO by considering a
regularization problem of relative Pearson (RPE) divergence, so-called PPO-RPE.
This regularization yields the clear minimization target, which constrains the
latest policy to the baseline one. Through its analysis, the intuitive
threshold-based design consistent with the asymmetry of the threshold and the
domain of density ratio can be derived. Through four benchmark tasks, PPO-RPE
performed as well as or better than the conventional methods in terms of the
task performance by the learned policy.
- Abstract(参考訳): 深層強化学習(DRL)の最近の顕著な進歩は、安定的で効率的な学習のための政策の規則化にある。
この目的のために、PPO (proximal policy optimization) と呼ばれる一般的な手法が導入された。
PPOは最新の方針と基準方針の密度比を閾値でクリップするが、最小化ターゲットは不明確である。
PPOの別の問題として、密度比自体が非対称領域にある間に対称閾値が数値的に与えられ、したがってポリシーの不均衡な正規化が生じる。
そこで本稿では,PPO-RPEと呼ばれる相対ピアソン発散の正規化問題を考慮し,PPOの新たな変種を提案する。
この正規化は、最新のポリシーをベースラインに制約する明確な最小化ターゲットをもたらす。
その解析により、閾値の非対称性と密度比の領域と一致する直感的なしきい値に基づく設計を導出することができる。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
関連論文リスト
- Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。
我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。
ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文 参考訳(メタデータ) (2024-06-06T09:29:40Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio [8.071506311915396]
一般的な方法、いわゆるポリシ最適化(PPO)とその変種は、密度比が与えられた閾値を超える場合に、最新のポリシーとベースラインポリシーの密度比を制約する。
本稿では,相対的ピアソン(RPE)偏差を用いた新しいPPO(PPO-RPE)を提案し,その閾値を適応的に設計する。
論文 参考訳(メタデータ) (2022-03-18T09:13:13Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。