論文の概要: Revisiting Design Choices in Proximal Policy Optimization
- arxiv url: http://arxiv.org/abs/2009.10897v1
- Date: Wed, 23 Sep 2020 02:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:25:03.076882
- Title: Revisiting Design Choices in Proximal Policy Optimization
- Title(参考訳): 政策最適化における設計選択の再検討
- Authors: Chloe Ching-Yun Hsu, Celestine Mendler-D\"unner, Moritz Hardt
- Abstract要約: Proximal Policy Optimization (PPO) は、一般的なディープポリシーアルゴリズムの勾配である。
これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。
我々は、これらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。
- 参考スコア(独自算出の注目度): 21.721075405670916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proximal Policy Optimization (PPO) is a popular deep policy gradient
algorithm. In standard implementations, PPO regularizes policy updates with
clipped probability ratios, and parameterizes policies with either continuous
Gaussian distributions or discrete Softmax distributions. These design choices
are widely accepted, and motivated by empirical performance comparisons on
MuJoCo and Atari benchmarks.
We revisit these practices outside the regime of current benchmarks, and
expose three failure modes of standard PPO. We explain why standard design
choices are problematic in these cases, and show that alternative choices of
surrogate objectives and policy parameterizations can prevent the failure
modes. We hope that our work serves as a reminder that many algorithmic design
choices in reinforcement learning are tied to specific simulation environments.
We should not implicitly accept these choices as a standard part of a more
general algorithm.
- Abstract(参考訳): Proximal Policy Optimization (PPO) は、一般的なディープポリシー勾配アルゴリズムである。
標準的な実装では、ppoはポリシー更新をクリップ化された確率比で規則化し、連続ガウス分布または離散ソフトマックス分布でポリシーをパラメータ化する。
これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。
我々はこれらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。
このような場合、標準設計選択が問題となる理由を説明し、目的を代理する代替選択や政策パラメータ化が障害モードを防止できることを示す。
私たちは、強化学習における多くのアルゴリズム設計選択が、特定のシミュレーション環境に結びついていることを思い出させてくれることを願っています。
より一般的なアルゴリズムの標準部分としてこれらの選択を暗黙的に受け入れるべきではない。
関連論文リスト
- SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments [18.081732498034047]
この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。
PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
論文 参考訳(メタデータ) (2024-07-26T17:59:55Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。
状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T18:49:33Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。