論文の概要: Replay across Experiments: A Natural Extension of Off-Policy RL
- arxiv url: http://arxiv.org/abs/2311.15951v2
- Date: Tue, 28 Nov 2023 15:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:57:55.219547
- Title: Replay across Experiments: A Natural Extension of Off-Policy RL
- Title(参考訳): 実験間のリプレイ:オフポリシーrlの自然な拡張
- Authors: Dhruva Tirumala, Thomas Lampe, Jose Enrique Chen, Tuomas Haarnoja,
Sandy Huang, Guy Lever, Ben Moran, Tim Hertweck, Leonard Hasenclever, Martin
Riedmiller, Nicolas Heess and Markus Wulfmeier
- Abstract要約: 複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
- 参考スコア(独自算出の注目度): 18.545939667810565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replaying data is a principal mechanism underlying the stability and data
efficiency of off-policy reinforcement learning (RL). We present an effective
yet simple framework to extend the use of replays across multiple experiments,
minimally adapting the RL workflow for sizeable improvements in controller
performance and research iteration times. At its core, Replay Across
Experiments (RaE) involves reusing experience from previous experiments to
improve exploration and bootstrap learning while reducing required changes to a
minimum in comparison to prior work. We empirically show benefits across a
number of RL algorithms and challenging control domains spanning both
locomotion and manipulation, including hard exploration tasks from egocentric
vision. Through comprehensive ablations, we demonstrate robustness to the
quality and amount of data available and various hyperparameter choices.
Finally, we discuss how our approach can be applied more broadly across
research life cycles and can increase resilience by reloading data across
random seeds or hyperparameter variations.
- Abstract(参考訳): データの再生は、オフポリティクス強化学習(RL)の安定性とデータ効率の基盤となる主要なメカニズムである。
複数の実験にまたがってリプレイを効果的に拡張し、RLワークフローを最小限に適用し、コントローラの性能と研究のイテレーション時間を大幅に改善する。
中心となるのがreplay across experiments(rae)で、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善し、必要な変更を最小限に抑える。
我々は経験的に、多くのrlアルゴリズムと、自発的なビジョンからの厳しい探索タスクを含む、ロコモーションと操作の両方にまたがる困難な制御ドメインにまたがる利点を示す。
包括的アブレーションにより、利用可能なデータの品質と量、および様々なハイパーパラメータの選択に対するロバスト性を示す。
最後に,このアプローチを研究ライフサイクル全体にわたってより広く適用し,ランダムシードやハイパーパラメータの変動に対してデータを再ロードすることでレジリエンスを向上させる方法について論じる。
関連論文リスト
- CIER: A Novel Experience Replay Approach with Causal Inference in Deep Reinforcement Learning [11.13226491866178]
時系列を意味のあるサブシーケンスに分割する新しい手法を提案し,これらのサブシーケンスに基づいて時系列を表現する。
このサブシーケンスは、トレーニング結果に大きな影響を及ぼす基本的な因果的要因を特定するために因果推論に使用される。
いくつかの実験は、我々のアプローチが共通の環境で実現可能であることを実証し、DRLトレーニングの有効性を高め、トレーニングプロセスに一定のレベルの説明可能性を与える能力を確認した。
論文 参考訳(メタデータ) (2024-05-14T07:23:10Z) - Reinforcement Learning for Online Testing of Autonomous Driving Systems: a Replication and Extension Study [15.949975158039452]
最近の研究では、Reinforcement Learningはディープニューラルネットワーク対応システムのオンラインテストの代替技術より優れていることが示されている。
この作品は、その経験的研究の再現と拡張である。
その結果、我々の新しいRLエージェントは、ランダムテストよりも優れた効果的なポリシーに収束できることがわかった。
論文 参考訳(メタデータ) (2024-03-20T16:39:17Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Learning to Sample with Local and Global Contexts in Experience Replay
Buffer [135.94190624087355]
遷移の相対的重要性を計算できる学習に基づく新しいサンプリング手法を提案する。
本研究の枠組みは, 様々な非政治強化学習手法の性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。