論文の概要: Understanding and Mitigating the Limitations of Prioritized Experience
Replay
- arxiv url: http://arxiv.org/abs/2007.09569v3
- Date: Sat, 11 Jun 2022 19:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 23:47:59.360423
- Title: Understanding and Mitigating the Limitations of Prioritized Experience
Replay
- Title(参考訳): 優先順位付き体験リプレイの限界の理解と緩和
- Authors: Yangchen Pan, Jincheng Mei, Amir-massoud Farahmand, Martha White,
Hengshuai Yao, Mohsen Rohani, Jun Luo
- Abstract要約: 優先順位付け再生体験(ER)は、多くのドメインでサンプル効率を改善するために実証的に示されている。
平均二乗誤差に対する誤差に基づく優先サンプリング法と立方体電力損失に対する一様サンプリング法との等価性を示す。
次に,早期学習における一様サンプリングによる収束率の向上について理論的考察を行った。
- 参考スコア(独自算出の注目度): 46.663239542920984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prioritized Experience Replay (ER) has been empirically shown to improve
sample efficiency across many domains and attracted great attention; however,
there is little theoretical understanding of why such prioritized sampling
helps and its limitations. In this work, we take a deep look at the prioritized
ER. In a supervised learning setting, we show the equivalence between the
error-based prioritized sampling method for mean squared error and uniform
sampling for cubic power loss. We then provide theoretical insight into why it
improves convergence rate upon uniform sampling during early learning. Based on
the insight, we further point out two limitations of the prioritized ER method:
1) outdated priorities and 2) insufficient coverage of the sample space. To
mitigate the limitations, we propose our model-based stochastic gradient
Langevin dynamics sampling method. We show that our method does provide states
distributed close to an ideal prioritized sampling distribution estimated by
the brute-force method, which does not suffer from the two limitations. We
conduct experiments on both discrete and continuous control problems to show
our approach's efficacy and examine the practical implication of our method in
an autonomous driving application.
- Abstract(参考訳): 優先順位付けされた経験リプレイ(ER)は、多くの領域でサンプル効率を向上させるために実証的に示されており、大きな注目を集めている。
この作業では、優先順位付けされたERを詳しく見ていきます。
教師付き学習環境では,平均二乗誤差に対する誤差ベース優先サンプリング法と立方体電力損失に対する一様サンプリング法の等価性を示す。
そして,初期学習における一様サンプリングによる収束率の向上を理論的に考察する。
この知見に基づき、優先順位付きerメソッドの2つの制限を更に指摘する。
1)時代遅れの優先事項
2) サンプル空間のカバレッジが不十分である。
そこで本研究では,本モデルに基づく確率勾配ランジュバンダイナミクスサンプリング法を提案する。
本手法は, ブラトフォース法により推定される理想的なサンプリング分布に近接して分布する状態を与えるが, この2つの制限に悩まされないことを示す。
本手法の有効性を示すために, 個別および連続的な制御問題について実験を行い, 自律運転アプリケーションにおける本手法の有効性について検討する。
関連論文リスト
- Diffusion Prior-Based Amortized Variational Inference for Noisy Inverse Problems [12.482127049881026]
そこで本稿では, 償却変分推論の観点から, 拡散による逆問題の解法を提案する。
我々の償却推論は、測定結果を対応するクリーンデータの暗黙の後方分布に直接マッピングする関数を学習し、未知の計測でも単一ステップの後方サンプリングを可能にする。
論文 参考訳(メタデータ) (2024-07-23T02:14:18Z) - Semiparametric Efficient Inference in Adaptive Experiments [29.43493007296859]
本研究では, 治療や管理に対する課題の割り当てを規定する政策が, 時間とともに変化しうる連続的な実験において, 平均治療効果の効率的な推定の問題点を考察する。
まず、Adaptive Augmented Inverse-Probability Weighted estimator に対する中心極限定理について述べる。
次に、従来の手法よりもかなり厳密な確率性および漸近的信頼シーケンスの両方を導出した逐次推論設定を検討する。
論文 参考訳(メタデータ) (2023-11-30T06:25:06Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Distributionally Robust Causal Inference with Observational Data [4.8986598953553555]
非確立性の標準的な仮定を伴わない観察研究における平均治療効果の推定を考察する。
本稿では,無観測の共同設立者が存在する可能性を考慮した,一般的な観察研究環境下での堅牢な因果推論の枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-15T16:02:33Z) - Hindsight Goal Ranking on Replay Buffer for Sparse Reward Environment [16.422215672356167]
本稿では,HGR(Hindsight Goal Ranking)と呼ばれるリプレイ体験の優先順位付け手法を提案する。
HGRは時間差(TD)の誤差が大きいエピソードに訪れた状態に対して高い確率で試料を採取した。
提案手法は,非政治モデル自由アクター批判アルゴリズムであるDeep Deterministic Policy Gradient (DDPG)と組み合わせることで,学習の高速化を図る。
論文 参考訳(メタデータ) (2021-10-28T12:09:10Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。