論文の概要: PPO-UE: Proximal Policy Optimization via Uncertainty-Aware Exploration
- arxiv url: http://arxiv.org/abs/2212.06343v1
- Date: Tue, 13 Dec 2022 02:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:42:38.475581
- Title: PPO-UE: Proximal Policy Optimization via Uncertainty-Aware Exploration
- Title(参考訳): PPO-UE:不確実性を考慮した探索による政策最適化
- Authors: Qisheng Zhang, Zhen Guo, Audun J{\o}sang, Lance M. Kaplan, Feng Chen,
Dong H. Jeong, Jin-Hee Cho
- Abstract要約: 自己適応型不確実性探索機能を備えたPPO-UEを提案する。
提案するPPO-UEは,Roboschool連続制御タスクのベースラインPPOよりもかなり優れている。
- 参考スコア(独自算出の注目度): 14.17825337817933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) is a highly popular policy-based deep
reinforcement learning (DRL) approach. However, we observe that the homogeneous
exploration process in PPO could cause an unexpected stability issue in the
training phase. To address this issue, we propose PPO-UE, a PPO variant
equipped with self-adaptive uncertainty-aware explorations (UEs) based on a
ratio uncertainty level. The proposed PPO-UE is designed to improve convergence
speed and performance with an optimized ratio uncertainty level. Through
extensive sensitivity analysis by varying the ratio uncertainty level, our
proposed PPO-UE considerably outperforms the baseline PPO in Roboschool
continuous control tasks.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、政策に基づく深層強化学習(DRL)アプローチとして人気が高い。
しかし, PPOの均質探索プロセスは, トレーニング段階で予期せぬ安定性問題を引き起こす可能性がある。
そこで本研究では,PPO-UEを提案する。PPO-UEは自己適応型不確実性探索(UE)を備えたPPOの変種である。
The proposed PPO-UE is designed to improve convergence speed and performance with the optimized ratio uncertainty level。
PPO-UEは,比の不確かさの程度を変化させることで,広範に感度解析を行うことで,ロボスクール連続制御タスクのベースラインPPOを著しく上回っている。
関連論文リスト
- Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。
我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。
ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文 参考訳(メタデータ) (2024-06-06T09:29:40Z) - Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods [0.0]
政策に基づく強化学習アルゴリズムは様々な分野で広く利用されている。
これらのアルゴリズムは、ポリシー反復に重要サンプリングを導入する。
これにより、サロゲートの目的の分散度が高くなり、アルゴリズムの安定性と収束度に間接的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-31T11:38:26Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - CIM-PPO:Proximal Policy Optimization with Liu-Correntropy Induced Metric [0.5409700620900998]
Proximal Policy Optimization (PPO) は、Deep Reinforcement Learning (DRL) アルゴリズムとして人気がある。
本稿では,PPO-KLに対するKL分散の非対称性の影響を解析する。
KLの非対称性がPPO-KLの政策改善に影響を及ぼし,PPO-CIMがPPO-KLとPPO-Clipの両方よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-20T12:20:52Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Proximal Policy Optimization with Relative Pearson Divergence [8.071506311915396]
PPOは、最新ポリシーとベースラインポリシーの密度比を閾値でクリップするが、最小化ターゲットは不明確である。
本稿では、相対ピアソン分散(RPE)の正規化問題(いわゆるPPO-RPE)を考慮し、PPOの新しい変種を提案する。
4つのベンチマークタスクを通じて,PPO-RPEは学習方針によるタスク性能の点で従来の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-10-07T09:11:22Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。