Fugu-MT 論文翻訳(概要): Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory

論文の概要: Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory

arxiv url: http://arxiv.org/abs/2408.13452v3
Date: Wed, 16 Oct 2024 13:43:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 05:26:28.435701
Title: Data Augmentation for Continual RL via Adversarial Gradient Episodic Memory
Title（参考訳）: 逆勾配エピソードメモリによる連続RLデータの増大
Authors: Sihao Wu, Xingyu Zhao, Xiaowei Huang,
Abstract要約: 連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。本稿では,連続RLにおけるデータ拡張の有効性について検討する。本稿では,乱数振幅スケーリング,ステートスウィッチ,ミックスアップ,逆数拡張,Adv-GEMなどのデータ拡張が,既存の連続RLアルゴリズムを改善することを示す。
参考スコア（独自算出の注目度）: 7.771348413934219
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data efficiency of learning, which plays a key role in the Reinforcement Learning (RL) training process, becomes even more important in continual RL with sequential environments. In continual RL, the learner interacts with non-stationary, sequential tasks and is required to learn new tasks without forgetting previous knowledge. However, there is little work on implementing data augmentation for continual RL. In this paper, we investigate the efficacy of data augmentation for continual RL. Specifically, we provide benchmarking data augmentations for continual RL, by (1) summarising existing data augmentation methods and (2) including a new augmentation method for continual RL: Adversarial Augmentation with Gradient Episodic Memory (Adv-GEM). Extensive experiments show that data augmentations, such as random amplitude scaling, state-switch, mixup, adversarial augmentation, and Adv-GEM, can improve existing continual RL algorithms in terms of their average performance, catastrophic forgetting, and forward transfer, on robot control tasks. All data augmentation methods are implemented as plug-in modules for trivial integration into continual RL methods.
Abstract（参考訳）: Reinforcement Learning(RL)トレーニングプロセスにおいて重要な役割を果たす学習のデータ効率は、連続環境を持つ連続RLにおいてさらに重要になる。連続RLでは、学習者は定常的でないシーケンシャルなタスクと対話し、以前の知識を忘れずに新しいタスクを学習する必要がある。しかし、連続RLのためのデータ拡張の実装についてはほとんど研究されていない。本稿では,連続RLにおけるデータ拡張の有効性について検討する。具体的には,(1)既存のデータ拡張手法を要約し,(2)連続RLの新たな拡張方法を含む連続RLのためのベンチマークデータ拡張(Adv-GEM)を提案する。大規模な実験により、ロボット制御タスクにおいて、ランダム振幅スケーリング、ステートスウィッチ、ミックスアップ、逆方向拡張、Adv-GEMなどのデータ拡張が、その平均性能、破滅的な忘れ、前方移動といった面で、既存の連続RLアルゴリズムを改善できることが示されている。すべてのデータ拡張メソッドはプラグインモジュールとして実装され、連続RLメソッドに簡単に統合できる。

関連論文リスト

Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。 Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳（メタデータ） (2025-09-23T17:10:40Z)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Expert-Free Online Transfer Learning in Multi-Agent Reinforcement Learning [0.0]
Transfer Learning(TL)は、未知のタスクを扱うエージェントの学習複雑性を低減することを目的としている。他のタスクやエージェントからの外部知識を使用することで、学習プロセスを強化することができる。これは、学習モデルに必要な新しい情報の量を減らすことで達成され、結果として全体の収束時間が短縮される。
論文参考訳（メタデータ） (2025-01-26T11:53:18Z)
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文参考訳（メタデータ） (2024-10-09T21:14:09Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates [3.5253513747455303]
我々は、観察された学習改善に寄与するデータ拡張(DA)の一般的な側面を同定する。本研究では,動的不変データ拡張機能を持つスパース逆タスクに着目した。
論文参考訳（メタデータ） (2023-10-26T21:28:50Z)
Enhancing data efficiency in reinforcement learning: a novel imagination mechanism based on mesh information propagation [0.3729614006275886]
Imagination Mechanism (IM) と呼ばれる新しいメッシュ情報伝達機構を導入する。 IMは、単一のサンプルによって生成された情報を、エピソード間で異なる状態に効果的にブロードキャストすることを可能にする。汎用性を促進するため,他の広く採用されているRLアルゴリズムにシームレスかつ流動的に統合可能なプラグイン・アンド・プレイモジュールとして機能するIMを拡張した。
論文参考訳（メタデータ） (2023-09-25T16:03:08Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Prioritized Trajectory Replay: A Replay Memory for Data-driven Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。 TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。 D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文参考訳（メタデータ） (2023-06-27T14:29:44Z)
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。 ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文参考訳（メタデータ） (2022-01-31T18:39:27Z)
Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文参考訳（メタデータ） (2020-11-26T17:00:34Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)
Transient Non-Stationarity and Generalisation in Deep Reinforcement Learning [67.34810824996887]
非定常性は、静止環境においても強化学習(Reinforcement Learning, RL)において生じることがある。深部RLエージェントの一般化を改善するため,ITER(Iterated Relearning)を提案する。
論文参考訳（メタデータ） (2020-06-10T13:26:31Z)
Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文参考訳（メタデータ） (2020-04-30T17:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。