論文の概要: Efficient Diversity-based Experience Replay for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.20487v2
- Date: Wed, 22 Jan 2025 01:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:32.984644
- Title: Efficient Diversity-based Experience Replay for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための多様性に基づく効率的な経験リプレイ
- Authors: Kaiyan Zhao, Yiming Wang, Yuyang Chen, Yan Li, Leong Hou U, Xiaoguang Niu,
- Abstract要約: EDER(Evanced Diversity-based Experience Replay)という新しいアプローチを提案する。
EDERは、サンプル間の多様性をモデル化するために決定論的ポイントプロセスを採用し、サンプル間の多様性に基づいてリプレイを優先順位付けする。
実験は、MuJoCo、アタリゲーム、ハビタットの現実的な屋内環境におけるロボット操作に関するものである。
- 参考スコア(独自算出の注目度): 14.96744975805832
- License:
- Abstract: Experience replay is widely used to improve learning efficiency in reinforcement learning by leveraging past experiences. However, existing experience replay methods, whether based on uniform or prioritized sampling, often suffer from low efficiency, particularly in real-world scenarios with high-dimensional state spaces. To address this limitation, we propose a novel approach, Efficient Diversity-based Experience Replay (EDER). EDER employs a deterministic point process to model the diversity between samples and prioritizes replay based on the diversity between samples. To further enhance learning efficiency, we incorporate Cholesky decomposition for handling large state spaces in realistic environments. Additionally, rejection sampling is applied to select samples with higher diversity, thereby improving overall learning efficacy. Extensive experiments are conducted on robotic manipulation tasks in MuJoCo, Atari games, and realistic indoor environments in Habitat. The results demonstrate that our approach not only significantly improves learning efficiency but also achieves superior performance in high-dimensional, realistic environments.
- Abstract(参考訳): 経験の再現は、過去の経験を活用して強化学習における学習効率を向上させるために広く用いられている。
しかし,特に高次元状態空間を持つ実世界のシナリオにおいて,一様サンプリングや優先サンプリングのいずれにも拘らず,既存の経験再生手法は低効率に悩まされることが多い。
この制限に対処するため、我々はEDER(Efficient Diversity-based Experience Replay)という新しいアプローチを提案する。
EDERは、サンプル間の多様性をモデル化するために決定論的ポイントプロセスを採用し、サンプル間の多様性に基づいてリプレイを優先順位付けする。
学習効率をさらに高めるため,我々はColesky分解を実環境における大規模状態空間の処理に取り入れた。
さらに、より多様性の高い選択サンプルに拒絶サンプリングを適用し、全体としての学習効率を向上させる。
大規模な実験は、MuJoCo、アタリゲーム、ハビタットの現実的な屋内環境におけるロボット操作に関するものである。
その結果,本手法は学習効率を向上するだけでなく,高次元・現実的な環境においても優れた性能を発揮することが示された。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Towards Improving Exploration in Self-Imitation Learning using Intrinsic
Motivation [7.489793155793319]
強化学習(Reinforcement Learning)は、最適化タスクを効率的に解くための強力な代替手段として登場した。
これらのアルゴリズムの使用は、学習したエージェントが行う決定がどれほど良い(または悪い)かを知らせる環境の提供するフィードバック信号に大きく依存する。
この研究では、本質的な動機付けは、エージェントが好奇心に基づいて環境を探索することを奨励するのに対して、模倣学習は学習プロセスを加速するために最も有望な経験を繰り返すことができる。
論文 参考訳(メタデータ) (2022-11-30T09:18:59Z) - Cluster-based Sampling in Hindsight Experience Replay for Robotic Tasks
(Student Abstract) [3.4616343332323596]
本稿では,達成目標の特性を生かした経験の生み出す効果について考察する。
提案手法は,クラスタモデルを用いて,HERの方法で経験をサンプリングすることにより,達成目標の異なるエピソードを抽出する。
実験の結果,提案手法は実質的にサンプル効率が良く,ベースライン手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2022-08-31T09:45:30Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。