論文の概要: OER: Offline Experience Replay for Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13804v2
- Date: Sat, 20 Apr 2024 08:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:22:08.960505
- Title: OER: Offline Experience Replay for Continual Offline Reinforcement Learning
- Title(参考訳): OER: 継続的なオフライン強化学習のためのオフライン体験リプレイ
- Authors: Sibo Gai, Donglin Wang, Li He,
- Abstract要約: エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
- 参考スコア(独自算出の注目度): 25.985985377992034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability of continuously learning new skills via a sequence of pre-collected offline datasets is desired for an agent. However, consecutively learning a sequence of offline tasks likely leads to the catastrophic forgetting issue under resource-limited scenarios. In this paper, we formulate a new setting, continual offline reinforcement learning (CORL), where an agent learns a sequence of offline reinforcement learning tasks and pursues good performance on all learned tasks with a small replay buffer without exploring any of the environments of all the sequential tasks. For consistently learning on all sequential tasks, an agent requires acquiring new knowledge and meanwhile preserving old knowledge in an offline manner. To this end, we introduced continual learning algorithms and experimentally found experience replay (ER) to be the most suitable algorithm for the CORL problem. However, we observe that introducing ER into CORL encounters a new distribution shift problem: the mismatch between the experiences in the replay buffer and trajectories from the learned policy. To address such an issue, we propose a new model-based experience selection (MBES) scheme to build the replay buffer, where a transition model is learned to approximate the state distribution. This model is used to bridge the distribution bias between the replay buffer and the learned model by filtering the data from offline data that most closely resembles the learned model for storage. Moreover, in order to enhance the ability on learning new tasks, we retrofit the experience replay method with a new dual behavior cloning (DBC) architecture to avoid the disturbance of behavior-cloning loss on the Q-learning process. In general, we call our algorithm offline experience replay (OER). Extensive experiments demonstrate that our OER method outperforms SOTA baselines in widely-used Mujoco environments.
- Abstract(参考訳): エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習する能力が望まれる。
しかし、一連のオフラインタスクを連続的に学習することは、リソース制限されたシナリオ下での破滅的な忘れの問題につながる可能性が高い。
本稿では、エージェントが一連のオフライン強化学習タスクを学習し、全ての連続タスクの環境を探索することなく、小さなリプレイバッファで全ての学習タスクの性能を追求する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
すべてのシーケンシャルなタスクについて一貫して学習するためには、エージェントは新しい知識を取得し、一方、古い知識をオフラインで保存する必要がある。
この目的のために,我々は連続学習アルゴリズムを導入し,CORL問題の最も適切なアルゴリズムとして経験再生(ER)を実験的に発見した。
しかし、CORLにERを導入すると、リプレイバッファにおける経験と学習ポリシーからの軌跡とのミスマッチという、新しい分散シフト問題が発生することが観察された。
このような問題に対処するために、リプレイバッファを構築するための新しいモデルベースエクスペリエンスセレクション(MBES)方式を提案し、そこで遷移モデルを学習して状態分布を近似する。
このモデルは、記憶のための学習モデルに最も近いオフラインデータからデータをフィルタリングすることで、リプレイバッファと学習モデルの間の分布バイアスをブリッジするために使用される。
さらに,新しいタスクを学習する能力を高めるために,新しい二重行動クローニング(DBC)アーキテクチャを用いて経験再現手法を再構成し,Q-ラーニングプロセスにおける行動閉鎖の障害を回避する。
一般に、アルゴリズムをオフライン体験再生(OER)と呼ぶ。
広汎な実験により,OER法は広く使用されているムジョコ環境においてSOTAのベースラインを上回っていることが示された。
関連論文リスト
- Continual Diffuser (CoD): Mastering Continual Offline Reinforcement Learning with Experience Rehearsal [54.93261535899478]
強化学習のロボット制御のような現実世界の応用では、タスクが変化し、新しいタスクが順次発生する。
この状況は、タスクの変更に適応し、獲得した知識を保持するエージェントを訓練する上で、可塑性-安定トレードオフという新たな課題を生じさせる。
本研究では,連続拡散器(Continuous diffuser,CoD)と呼ばれるリハーサルに基づく連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-09-04T08:21:47Z) - Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。
C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-14T17:40:40Z) - Watch Your Step: Optimal Retrieval for Continual Learning at Scale [1.7265013728931]
連続学習では、モデルは古いタスクと新しいタスクの間の干渉を最小限にしながら、時間とともに漸進的に学習する。
継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。
本稿では,単純で独立したクラス選択型プリミティブとサンプル選択型プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。
本稿では,重複したリプレイを防止し,損失値の低い新しいサンプルをリプレイなしで学習できるかどうかを探索する戦略を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:35:35Z) - Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning [22.00843101957619]
オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
経験的なリプレイでトレーニングされたニューラルネットワークは、不安定な最適化軌道を持つ傾向があります。
本稿では、新しいデータと再生データからの学習のバランスを保ちながら、過去のデータの隠れたアクティベーションの段階的変化を許容するLayerwise Proximal Replay(LPR)を提案する。
論文 参考訳(メタデータ) (2024-02-14T19:34:28Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - Dealing with Cross-Task Class Discrimination in Online Continual
Learning [54.31411109376545]
本稿では,クラスインクリメンタルラーニング(CIL)における新たな課題について論じる。
新しいタスクのクラスと古いタスクの間の決定境界を、古いタスクデータへの(あるいは制限された)アクセスなしで設定する方法。
リプレイ方式では、前のタスクから少量のデータ(再生データ)を節約する。現在のタスクデータのバッチが到着すると、システムは、新しいデータとサンプルデータとを共同でトレーニングする。
本稿では,リプレイ手法には動的トレーニングバイアスの問題があり,CTCD問題の解法におけるリプレイデータの有効性を低下させる。
論文 参考訳(メタデータ) (2023-05-24T02:52:30Z) - New Insights on Reducing Abrupt Representation Change in Online
Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。
Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。
本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T01:37:00Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。