論文の概要: Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization
- arxiv url: http://arxiv.org/abs/2302.02299v1
- Date: Sun, 5 Feb 2023 04:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:02:41.584358
- Title: Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization
- Title(参考訳): サンプルドロップアウト: 深層政策最適化における簡易かつ効果的な分散削減手法
- Authors: Zichuan Lin, Xiapeng Wu, Mingfei Sun, Deheng Ye, Qiang Fu, Wei Yang,
Wei Liu
- Abstract要約: 重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 18.627233013208834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success in Deep Reinforcement Learning (DRL) methods has shown that
policy optimization with respect to an off-policy distribution via importance
sampling is effective for sample reuse. In this paper, we show that the use of
importance sampling could introduce high variance in the objective estimate.
Specifically, we show in a principled way that the variance of importance
sampling estimate grows quadratically with importance ratios and the large
ratios could consequently jeopardize the effectiveness of surrogate objective
optimization. We then propose a technique called sample dropout to bound the
estimation variance by dropping out samples when their ratio deviation is too
high. We instantiate this sample dropout technique on representative policy
optimization algorithms, including TRPO, PPO, and ESPO, and demonstrate that it
consistently boosts the performance of those DRL algorithms on both continuous
and discrete action controls, including MuJoCo, DMControl and Atari video
games. Our code is open-sourced at
\url{https://github.com/LinZichuan/sdpo.git}.
- Abstract(参考訳): 深層強化学習(drl)手法の最近の成功は、重要サンプリングによるオフポリシー分布に関するポリシー最適化がサンプル再利用に有効であることを示している。
本稿では,重要サンプリングの利用が目的推定に高いばらつきをもたらす可能性があることを示す。
具体的には,重要サンプリング推定のばらつきが重要度比で二乗的に増大し,その結果,主観的最適化の有効性を損なう可能性があることを原理的に示す。
次に, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する手法を提案する。
本稿では, TRPO, PPO, ESPOなどの代表的ポリシー最適化アルゴリズム上で, このサンプルドロップアウト手法をインスタンス化し, MuJoCo, DMControl, Atari ゲームなど, 連続的かつ離散的なアクション制御におけるDRLアルゴリズムの性能を継続的に向上することを示す。
私たちのコードは、 \url{https://github.com/linzichuan/sdpo.git}でオープンソースです。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation [12.415463205960156]
モデルフリー深部強化学習(RL)アルゴリズムでは、ノイズ値推定を用いて政策評価と最適化を監督し、サンプル効率を損なう。
RLで発生するノイズ管理における不確実性の原因を系統的に分析する。
本稿では,2つの相補的不確実性推定手法がQ値と環境の両方を考慮し,ノイズ管理の負の影響を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-01-05T15:46:06Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Batch Reinforcement Learning with a Nonparametric Off-Policy Policy
Gradient [34.16700176918835]
オフライン強化学習は、より良いデータ効率を約束する。
現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。
閉形式で解ける非パラメトリックベルマン方程式を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:40:06Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Adaptive Experience Selection for Policy Gradient [8.37609145576126]
経験的再生は、サンプル効率を改善するために一般的に使用されるアプローチである。
過去の軌跡を用いた勾配推定器は、通常、高いばらつきを持つ。
統一サンプリングや優先経験リプレイのような経験リプレイのための既存のサンプリング戦略は、勾配推定のばらつきを明示的に制御しようとするものではない。
本稿では,オンライン学習アルゴリズムである適応的経験選択(AES)を提案し,この分散を明示的に最小化する経験サンプリング分布を適応的に学習する。
論文 参考訳(メタデータ) (2020-02-17T13:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。