論文の概要: Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods
- arxiv url: http://arxiv.org/abs/2310.20380v3
- Date: Fri, 3 Nov 2023 04:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:41:17.432911
- Title: Dropout Strategy in Reinforcement Learning: Limiting the Surrogate
Objective Variance in Policy Optimization Methods
- Title(参考訳): 強化学習におけるドロップアウト戦略:政策最適化手法におけるサロゲート目的変数の制限
- Authors: Zhengpeng Xie, Changdong Yu, Weizheng Qiao
- Abstract要約: 政策に基づく強化学習アルゴリズムは様々な分野で広く利用されている。
これらのアルゴリズムは、ポリシー反復に重要サンプリングを導入する。
これにより、サロゲートの目的の分散度が高くなり、アルゴリズムの安定性と収束度に間接的に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy-based reinforcement learning algorithms are widely used in various
fields. Among them, mainstream policy optimization algorithms such as TRPO and
PPO introduce importance sampling into policy iteration, which allows the reuse
of historical data. However, this can also lead to a high variance of the
surrogate objective and indirectly affects the stability and convergence of the
algorithm. In this paper, we first derived an upper bound of the surrogate
objective variance, which can grow quadratically with the increase of the
surrogate objective. Next, we proposed the dropout technique to avoid the
excessive increase of the surrogate objective variance caused by importance
sampling. Then, we introduced a general reinforcement learning framework
applicable to mainstream policy optimization methods, and applied the dropout
technique to the PPO algorithm to obtain the D-PPO variant. Finally, we conduct
comparative experiments between D-PPO and PPO algorithms in the Atari 2600
environment, and the results show that D-PPO achieved significant performance
improvements compared to PPO, and effectively limited the excessive increase of
the surrogate objective variance during training.
- Abstract(参考訳): ポリシーに基づく強化学習アルゴリズムは様々な分野で広く使われている。
このうち,TRPOやPPOなどの主流ポリシ最適化アルゴリズムは,過去のデータの再利用を可能にするポリシ反復に重要サンプリングを導入している。
しかし、これはサロゲートの目的のばらつきを招き、間接的にアルゴリズムの安定性と収束に影響を与えることもある。
本稿では,まず,対象値の増加に伴って二次的に成長することができる,対象変数の上限を導出した。
次に,重要サンプリングによるサロゲート目的分散の過剰増加を回避するために,ドロップアウト手法を提案する。
そこで本研究では,主流政策最適化手法に適用可能な汎用強化学習フレームワークを導入し,PPOアルゴリズムにドロップアウト手法を適用してD-PPO変種を求める。
最後に,Atari 2600環境におけるD-PPOとPPOの比較実験を行い,この結果から,D-PPOはPPOに比べて顕著な性能向上を達成でき,トレーニング中のサロゲート目的分散の過剰増加を効果的に抑制できることを示した。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - PTR-PPO: Proximal Policy Optimization with Prioritized Trajectory Replay [4.0388304511445146]
オンラインの深層強化学習アルゴリズムは、データ利用率を低くし、政策改善にかなりの経験を必要とする。
本稿では,サンプリング効率を向上させるために,プライオリティ付きトラジェクトリ・リプレイ(PTR-PPO)を提案する。
我々は,Atari離散制御タスクの集合におけるPTR-PPOの性能を評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-07T16:15:13Z) - Hinge Policy Optimization: Rethinking Policy Improvement and
Reinterpreting PPO [6.33198867705718]
政策最適化は強化学習アルゴリズムを設計するための基本原理である。
優れた経験的性能にもかかわらず、PPO-clipは今まで理論的な証明によって正当化されていない。
PPO-クリップの変種に対する最適ポリシーへの大域収束を証明できるのはこれが初めてである。
論文 参考訳(メタデータ) (2021-10-26T15:56:57Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Implementation Matters in Deep Policy Gradients: A Case Study on PPO and
TRPO [90.90009491366273]
本稿では,2つの一般的なアルゴリズムのケーススタディにより,ディープポリシー勾配アルゴリズムにおけるアルゴリズムの進歩のルーツについて検討する。
具体的には,「コードレベルの最適化」の結果について検討する。
以上の結果から, (a) TRPOに対するPPOの累積報酬のほとんどを担っていることが示され, (b) RL メソッドの動作方法が根本的に変化していることが示唆された。
論文 参考訳(メタデータ) (2020-05-25T16:24:59Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。