論文の概要: Safe and Robust Experience Sharing for Deterministic Policy Gradient
Algorithms
- arxiv url: http://arxiv.org/abs/2207.13453v1
- Date: Wed, 27 Jul 2022 11:10:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-28 12:57:36.193013
- Title: Safe and Robust Experience Sharing for Deterministic Policy Gradient
Algorithms
- Title(参考訳): 決定論的ポリシー勾配アルゴリズムのための安全とロバストな経験共有
- Authors: Baturay Saglam, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat
- Abstract要約: 本稿では,連続行動領域における決定論的ポリシーの簡易かつ効果的な経験共有機構を提案する。
我々は,行動確率を見積もることなく,新たな法外補正手法でアルゴリズムを高速化する。
我々は,OpenAI Gym連続制御タスクに挑戦する上で,提案手法の有効性を検証し,複数のエージェント間での安全な共有を実現することができると結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in high dimensional continuous tasks is challenging, mainly when the
experience replay memory is very limited. We introduce a simple yet effective
experience sharing mechanism for deterministic policies in continuous action
domains for the future off-policy deep reinforcement learning applications in
which the allocated memory for the experience replay buffer is limited. To
overcome the extrapolation error induced by learning from other agents'
experiences, we facilitate our algorithm with a novel off-policy correction
technique without any action probability estimates. We test the effectiveness
of our method in challenging OpenAI Gym continuous control tasks and conclude
that it can achieve a safe experience sharing across multiple agents and
exhibits a robust performance when the replay memory is strictly limited.
- Abstract(参考訳): 高次元の連続タスクでの学習は、主に経験リプレイメモリが非常に限られている場合に難しい。
本稿では,経験リプレイバッファのメモリ割り当てが制限された将来のオフポリシー深層強化学習アプリケーションのための,連続アクションドメインにおける決定論的ポリシのための簡易かつ効果的な経験共有機構を提案する。
他のエージェントの経験から学ぶことによって生じる外挿誤差を克服するために, 行動確率推定を必要とせず, 新たなオフポリシー補正手法により, アルゴリズムの高速化を図る。
我々は,OpenAI Gymの連続制御タスクに挑戦する上で,本手法の有効性を検証し,複数のエージェント間での安全な共有を実現し,リプレイメモリが厳格に制限された場合の堅牢な性能を示すと結論付けた。
関連論文リスト
- State-Novelty Guided Action Persistence in Deep Reinforcement Learning [7.05832012052375]
状態空間の現在の探索状況に基づいて動的に動作の持続性を調整する新しい手法を提案する。
本手法は, 時間的持続性を組み込むため, 様々な基礎探査手法にシームレスに統合できる。
論文 参考訳(メタデータ) (2024-09-09T08:34:22Z) - Learning Uncertainty-Aware Temporally-Extended Actions [22.901453123868674]
我々は不確かさを意識した時間拡張(UTE)という新しいアルゴリズムを提案する。
UTEはアンサンブル法を用いて、アクション拡張中の不確実性を正確に測定する。
我々はGridworldとAtari 2600環境における実験を通してUTEの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-08T06:32:06Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - TempoRL: Temporal Priors for Exploration in Off-Policy Reinforcement
Learning [33.512849582347734]
より多様なタスクで共有されるオフラインデータから機能を学ぶことを提案する。
実演軌跡における時間的一貫性を直接モデル化する状態非依存の時間的先行性を導入する。
また、非政治強化学習における行動優先の新たな統合手法についても紹介する。
論文 参考訳(メタデータ) (2022-05-26T17:49:12Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Revisiting Fundamentals of Experience Replay [91.24213515992595]
本稿では,Q-ラーニング手法における経験リプレイの体系的および広範囲な分析について述べる。
我々は、リプレイ能力と、収集した経験に対する学習更新率の2つの基本特性に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T21:22:17Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。