論文の概要: Efficient Diversity-based Experience Replay for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.20487v3
- Date: Thu, 23 Jan 2025 07:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 12:37:10.838217
- Title: Efficient Diversity-based Experience Replay for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための多様性に基づく効率的な経験リプレイ
- Authors: Kaiyan Zhao, Yiming Wang, Yuyang Chen, Yan Li, Leong Hou U, Xiaoguang Niu,
- Abstract要約: EDER(Evanced Diversity-based Experience Replay)という新しいアプローチを提案する。
EDERは、サンプル間の多様性をモデル化するために決定論的ポイントプロセスを採用し、サンプル間の多様性に基づいてリプレイを優先順位付けする。
実験は、MuJoCo、アタリゲーム、ハビタットの現実的な屋内環境におけるロボット操作に関するものである。
- 参考スコア(独自算出の注目度): 14.96744975805832
- License:
- Abstract: Experience replay is widely used to improve learning efficiency in reinforcement learning by leveraging past experiences. However, existing experience replay methods, whether based on uniform or prioritized sampling, often suffer from low efficiency, particularly in real-world scenarios with high-dimensional state spaces. To address this limitation, we propose a novel approach, Efficient Diversity-based Experience Replay (EDER). EDER employs a deterministic point process to model the diversity between samples and prioritizes replay based on the diversity between samples. To further enhance learning efficiency, we incorporate Cholesky decomposition for handling large state spaces in realistic environments. Additionally, rejection sampling is applied to select samples with higher diversity, thereby improving overall learning efficacy. Extensive experiments are conducted on robotic manipulation tasks in MuJoCo, Atari games, and realistic indoor environments in Habitat. The results demonstrate that our approach not only significantly improves learning efficiency but also achieves superior performance in high-dimensional, realistic environments.
- Abstract(参考訳): 経験の再現は、過去の経験を活用して強化学習における学習効率を向上させるために広く用いられている。
しかし,特に高次元状態空間を持つ実世界のシナリオにおいて,一様サンプリングや優先サンプリングのいずれにも拘らず,既存の経験再生手法は低効率に悩まされることが多い。
この制限に対処するため、我々はEDER(Efficient Diversity-based Experience Replay)という新しいアプローチを提案する。
EDERは、サンプル間の多様性をモデル化するために決定論的ポイントプロセスを採用し、サンプル間の多様性に基づいてリプレイを優先順位付けする。
学習効率をさらに高めるため,我々はColesky分解を実環境における大規模状態空間の処理に取り入れた。
さらに、より多様性の高い選択サンプルに拒絶サンプリングを適用し、全体としての学習効率を向上させる。
大規模な実験は、MuJoCo、アタリゲーム、ハビタットの現実的な屋内環境におけるロボット操作に関するものである。
その結果,本手法は学習効率を向上するだけでなく,高次元・現実的な環境においても優れた性能を発揮することが示された。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T03:17:20Z) - Environment Design for Inverse Reinforcement Learning [3.085995273374333]
一つの環境から学ぶことに集中する現在の逆強化学習法は、環境力学のわずかな変化に対処できない可能性がある。
本フレームワークでは,学習者がエキスパートと繰り返し対話し,前者の選択環境を使って報酬関数を識別する。
その結果,サンプル効率とロバスト性の両方の改善が得られた。
論文 参考訳(メタデータ) (2022-10-26T18:31:17Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Sequential Bayesian experimental designs via reinforcement learning [0.0]
我々は,BEDを逐次的に構築するために,強化学習による逐次実験設計を提案する。
提案手法は,新たな実世界指向実験環境を提案することで,期待される情報獲得を最大化することを目的としている。
提案手法は,EIGやサンプリング効率などの指標において,既存の手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2022-02-14T04:29:04Z) - TRAIL: Near-Optimal Imitation Learning with Suboptimal Data [100.83688818427915]
オフラインデータセットを使用してファクタードトランジションモデルを学習するトレーニング目標を提案する。
我々の理論的分析は、学習された潜在行動空間が下流模倣学習のサンプル効率を高めることを示唆している。
実際に潜伏行動空間を学習するために、エネルギーベースの遷移モデルを学ぶアルゴリズムTRAIL(Transition-Reparametrized Actions for Imitation Learning)を提案する。
論文 参考訳(メタデータ) (2021-10-27T21:05:00Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。