論文の概要: Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory
- arxiv url: http://arxiv.org/abs/2408.13452v2
- Date: Tue, 27 Aug 2024 02:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 12:43:01.981781
- Title: Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory
- Title(参考訳): 逆勾配エピソードメモリによる連続RLデータの増大
- Authors: Sihao Wu, Xingyu Zhao, Xiaowei Huang,
- Abstract要約: 連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。
本稿では,連続RLにおけるデータ拡張の有効性について検討する。
本稿では,乱数振幅スケーリング,ステートスウィッチ,ミックスアップ,逆数拡張,Adv-GEMなどのデータ拡張が,既存の連続RLアルゴリズムを改善することを示す。
- 参考スコア(独自算出の注目度): 7.771348413934219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data efficiency of learning, which plays a key role in the Reinforcement Learning (RL) training process, becomes even more important in continual RL with sequential environments. In continual RL, the learner interacts with non-stationary, sequential tasks and is required to learn new tasks without forgetting previous knowledge. However, there is little work on implementing data augmentation for continual RL. In this paper, we investigate the efficacy of data augmentation for continual RL. Specifically, we provide benchmarking data augmentations for continual RL, by (1) summarising existing data augmentation methods and (2) including a new augmentation method for continual RL: Adversarial Augmentation with Gradient Episodic Memory (Adv-GEM). Extensive experiments show that data augmentations, such as random amplitude scaling, state-switch, mixup, adversarial augmentation, and Adv-GEM, can improve existing continual RL algorithms in terms of their average performance, catastrophic forgetting, and forward transfer, on robot control tasks. All data augmentation methods are implemented as plug-in modules for trivial integration into continual RL methods.
- Abstract(参考訳): Reinforcement Learning(RL)トレーニングプロセスにおいて重要な役割を果たす学習のデータ効率は、連続環境を持つ連続RLにおいてさらに重要になる。
連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。
しかし、連続RLのためのデータ拡張の実装についてはほとんど研究されていない。
本稿では,連続RLにおけるデータ拡張の有効性について検討する。
具体的には,(1)既存のデータ拡張手法を要約し,(2)連続RLの新たな拡張方法を含む連続RLのためのベンチマークデータ拡張(Adv-GEM)を提案する。
大規模な実験により、ロボット制御タスクにおいて、ランダム振幅スケーリング、ステートスウィッチ、ミックスアップ、逆方向拡張、Adv-GEMなどのデータ拡張が、その平均性能、破滅的な忘れ、前方移動といった面で、既存の連続RLアルゴリズムを改善できることが示されている。
すべてのデータ拡張メソッドはプラグインモジュールとして実装され、連続RLメソッドに簡単に統合できる。
関連論文リスト
- Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-09T21:14:09Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates [3.5253513747455303]
我々は、観察された学習改善に寄与するデータ拡張(DA)の一般的な側面を同定する。
本研究では,動的不変データ拡張機能を持つスパース逆タスクに着目した。
論文 参考訳(メタデータ) (2023-10-26T21:28:50Z) - Enhancing data efficiency in reinforcement learning: a novel imagination
mechanism based on mesh information propagation [0.3729614006275886]
Imagination Mechanism (IM) と呼ばれる新しいメッシュ情報伝達機構を導入する。
IMは、単一のサンプルによって生成された情報を、エピソード間で異なる状態に効果的にブロードキャストすることを可能にする。
汎用性を促進するため,他の広く採用されているRLアルゴリズムにシームレスかつ流動的に統合可能なプラグイン・アンド・プレイモジュールとして機能するIMを拡張した。
論文 参考訳(メタデータ) (2023-09-25T16:03:08Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Transient Non-Stationarity and Generalisation in Deep Reinforcement
Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。
深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文 参考訳(メタデータ) (2020-06-10T13:26:31Z) - Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。
本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。