Fugu-MT 論文翻訳(概要): Revisiting Design Choices in Proximal Policy Optimization

論文の概要: Revisiting Design Choices in Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2009.10897v1
Date: Wed, 23 Sep 2020 02:00:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-15 15:25:03.076882
Title: Revisiting Design Choices in Proximal Policy Optimization
Title（参考訳）: 政策最適化における設計選択の再検討
Authors: Chloe Ching-Yun Hsu, Celestine Mendler-D\"unner, Moritz Hardt
Abstract要約: Proximal Policy Optimization (PPO) は、一般的なディープポリシーアルゴリズムの勾配である。これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。我々は、これらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。
参考スコア（独自算出の注目度）: 21.721075405670916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Proximal Policy Optimization (PPO) is a popular deep policy gradient algorithm. In standard implementations, PPO regularizes policy updates with clipped probability ratios, and parameterizes policies with either continuous Gaussian distributions or discrete Softmax distributions. These design choices are widely accepted, and motivated by empirical performance comparisons on MuJoCo and Atari benchmarks. We revisit these practices outside the regime of current benchmarks, and expose three failure modes of standard PPO. We explain why standard design choices are problematic in these cases, and show that alternative choices of surrogate objectives and policy parameterizations can prevent the failure modes. We hope that our work serves as a reminder that many algorithmic design choices in reinforcement learning are tied to specific simulation environments. We should not implicitly accept these choices as a standard part of a more general algorithm.
Abstract（参考訳）: Proximal Policy Optimization (PPO) は、一般的なディープポリシー勾配アルゴリズムである。標準的な実装では、ppoはポリシー更新をクリップ化された確率比で規則化し、連続ガウス分布または離散ソフトマックス分布でポリシーをパラメータ化する。これらの設計選択は広く受け入れられており、MuJoCoとAtariベンチマークの実証的な性能比較によって動機付けられている。我々はこれらのプラクティスを現在のベンチマークの体制外に再検討し、標準PPOの3つの障害モードを公開する。このような場合、標準設計選択が問題となる理由を説明し、目的を代理する代替選択や政策パラメータ化が障害モードを防止できることを示す。私たちは、強化学習における多くのアルゴリズム設計選択が、特定のシミュレーション環境に結びついていることを思い出させてくれることを願っています。より一般的なアルゴリズムの標準部分としてこれらの選択を暗黙的に受け入れるべきではない。

関連論文リスト

BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文参考訳（メタデータ） (2025-06-03T13:28:57Z)
On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文参考訳（メタデータ） (2025-05-30T15:30:43Z)
Enhancing PPO with Trajectory-Aware Hybrid Policies [6.938941097426891]
PPO(Proximal Policy Optimization)は、最先端のオンライン・ポリシー・アルゴリズムの1つである。高分散と高サンプルの複雑さは、いまだにオン・ポリティクスのアルゴリズムにおいて重要な課題である。本稿では,トラジェクトリ・リプレイバッファを用いて,近年のポリシーによって生成されるトラジェクトリを効率的に活用するハイブリッド・ポリシー・プロキシ・ポリシー・オプティマイズ(HP3O)を提案する。
論文参考訳（メタデータ） (2025-02-21T22:00:13Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
SOAP-RL: Sequential Option Advantage Propagation for Reinforcement Learning in POMDP Environments [18.081732498034047]
この研究は、強化学習アルゴリズムを部分的に観測されたマルコフ決定プロセス(POMDP)に拡張する方法とオプションを比較する。 PPOEMとSOAPという2つのアルゴリズムが提案され、この問題に深く取り組むために研究されている。
論文参考訳（メタデータ） (2024-07-26T17:59:55Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
Truly Deterministic Policy Optimization [3.07015565161719]
本稿では,探索的ノイズ注入を回避し,決定論的景観に対するポリシー探索を行う政策勾配法を提案する。状態遷移モデルとポリシの両方が決定論的であれば,正確な利点推定を計算可能であることを示す。
論文参考訳（メタデータ） (2022-05-30T18:49:33Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文参考訳（メタデータ） (2021-04-06T05:23:20Z)
PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文参考訳（メタデータ） (2020-07-16T16:57:41Z)
Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文参考訳（メタデータ） (2020-07-16T14:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。