論文の概要: Experience Replay with Likelihood-free Importance Weights
- arxiv url: http://arxiv.org/abs/2006.13169v1
- Date: Tue, 23 Jun 2020 17:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 21:49:37.361146
- Title: Experience Replay with Likelihood-free Importance Weights
- Title(参考訳): Likelihood-free Importance Weightsを用いた経験的リプレイ
- Authors: Samarth Sinha and Jiaming Song and Animesh Garg and Stefano Ermon
- Abstract要約: 本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
- 参考スコア(独自算出の注目度): 123.52005591531194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of past experiences to accelerate temporal difference (TD) learning
of value functions, or experience replay, is a key component in deep
reinforcement learning. Prioritization or reweighting of important experiences
has shown to improve performance of TD learning algorithms.In this work, we
propose to reweight experiences based on their likelihood under the stationary
distribution of the current policy. Using the corresponding reweighted TD
objective, we implicitly encourage small approximation errors on the value
function over frequently encountered states. We use a likelihood-free density
ratio estimator over the replay buffer to assign the prioritization weights. We
apply the proposed approach empirically on two competitive methods, Soft Actor
Critic (SAC) and Twin Delayed Deep Deterministic policy gradient (TD3) -- over
a suite of OpenAI gym tasks and achieve superior sample complexity compared to
other baseline approaches.
- Abstract(参考訳): 過去の経験を用いて、価値関数の時間的差異(td)学習や経験リプレイを加速することは、深層強化学習の重要な要素である。
本稿では,TD学習アルゴリズムの性能向上に寄与する重要な経験の優先順位付けや重み付けを行い,現状の政策の定常分布下での信頼性に基づく重み付け経験を提案する。
重み付けされたTD目標を用いて、頻繁に遭遇する状態に対する値関数上の小さな近似誤差を暗黙的に促進する。
優先度付けの重みを割り当てるために,リプレイバッファ上の確率自由密度比推定器を用いる。
提案手法は,openai gymタスクのスイートに対して,soft actor critic (sac) と twin delayed deep deterministic policy gradient (td3) の2つの競合手法に実証的に適用し,他のベースラインアプローチと比較して優れたサンプル複雑性を達成する。
関連論文リスト
- ROER: Regularized Optimal Experience Replay [34.462315999611256]
優先経験リプレイ(PER)は、時間差(TD)誤差によって経験を過度に再現する。
経験優先化と占有最適化の関連性を示す。
正規化された最適体験再生(ROER)は、難易度の高いAntmaze環境において顕著な改善を実現する。
論文 参考訳(メタデータ) (2024-07-04T15:14:57Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Attention Loss Adjusted Prioritized Experience Replay [0.0]
優先再生体験(PER)は、ニューラルネットワークのトレーニング率を改善するために、より知識量の多い経験サンプルを選択することによって、深層強化学習の技術的手段である。
PERで使用される非一様サンプリングは、状態-作用空間分布を必然的にシフトさせ、Q値関数の推定誤差をもたらす。
改良された自己認識ネットワークとダブルサンプリング機構を統合したALAP体験再生アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:49:32Z) - Safe and Robust Experience Sharing for Deterministic Policy Gradient
Algorithms [0.0]
本稿では,連続行動領域における決定論的ポリシーの簡易かつ効果的な経験共有機構を提案する。
我々は,行動確率を見積もることなく,新たな法外補正手法でアルゴリズムを高速化する。
我々は,OpenAI Gym連続制御タスクに挑戦する上で,提案手法の有効性を検証し,複数のエージェント間での安全な共有を実現することができると結論付けた。
論文 参考訳(メタデータ) (2022-07-27T11:10:50Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。