論文の概要: OER: Offline Experience Replay for Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13804v2
- Date: Sat, 20 Apr 2024 08:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 01:22:08.960505
- Title: OER: Offline Experience Replay for Continual Offline Reinforcement Learning
- Title(参考訳): OER: 継続的なオフライン強化学習のためのオフライン体験リプレイ
- Authors: Sibo Gai, Donglin Wang, Li He,
- Abstract要約: エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
- 参考スコア(独自算出の注目度): 25.985985377992034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The capability of continuously learning new skills via a sequence of pre-collected offline datasets is desired for an agent. However, consecutively learning a sequence of offline tasks likely leads to the catastrophic forgetting issue under resource-limited scenarios. In this paper, we formulate a new setting, continual offline reinforcement learning (CORL), where an agent learns a sequence of offline reinforcement learning tasks and pursues good performance on all learned tasks with a small replay buffer without exploring any of the environments of all the sequential tasks. For consistently learning on all sequential tasks, an agent requires acquiring new knowledge and meanwhile preserving old knowledge in an offline manner. To this end, we introduced continual learning algorithms and experimentally found experience replay (ER) to be the most suitable algorithm for the CORL problem. However, we observe that introducing ER into CORL encounters a new distribution shift problem: the mismatch between the experiences in the replay buffer and trajectories from the learned policy. To address such an issue, we propose a new model-based experience selection (MBES) scheme to build the replay buffer, where a transition model is learned to approximate the state distribution. This model is used to bridge the distribution bias between the replay buffer and the learned model by filtering the data from offline data that most closely resembles the learned model for storage. Moreover, in order to enhance the ability on learning new tasks, we retrofit the experience replay method with a new dual behavior cloning (DBC) architecture to avoid the disturbance of behavior-cloning loss on the Q-learning process. In general, we call our algorithm offline experience replay (OER). Extensive experiments demonstrate that our OER method outperforms SOTA baselines in widely-used Mujoco environments.
- Abstract(参考訳): エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習する能力が望まれる。
しかし、一連のオフラインタスクを連続的に学習することは、リソース制限されたシナリオ下での破滅的な忘れの問題につながる可能性が高い。
本稿では、エージェントが一連のオフライン強化学習タスクを学習し、全ての連続タスクの環境を探索することなく、小さなリプレイバッファで全ての学習タスクの性能を追求する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
すべてのシーケンシャルなタスクについて一貫して学習するためには、エージェントは新しい知識を取得し、一方、古い知識をオフラインで保存する必要がある。
この目的のために,我々は連続学習アルゴリズムを導入し,CORL問題の最も適切なアルゴリズムとして経験再生(ER)を実験的に発見した。
しかし、CORLにERを導入すると、リプレイバッファにおける経験と学習ポリシーからの軌跡とのミスマッチという、新しい分散シフト問題が発生することが観察された。
このような問題に対処するために、リプレイバッファを構築するための新しいモデルベースエクスペリエンスセレクション(MBES)方式を提案し、そこで遷移モデルを学習して状態分布を近似する。
このモデルは、記憶のための学習モデルに最も近いオフラインデータからデータをフィルタリングすることで、リプレイバッファと学習モデルの間の分布バイアスをブリッジするために使用される。
さらに,新しいタスクを学習する能力を高めるために,新しい二重行動クローニング(DBC)アーキテクチャを用いて経験再現手法を再構成し,Q-ラーニングプロセスにおける行動閉鎖の障害を回避する。
一般に、アルゴリズムをオフライン体験再生(OER)と呼ぶ。
広汎な実験により,OER法は広く使用されているムジョコ環境においてSOTAのベースラインを上回っていることが示された。
関連論文リスト
- Layerwise Proximal Replay: A Proximal Point Method for Online Continual
Learning [24.04262981398267]
オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験的リプレイ(experience replay)を採用している。
我々のソリューションであるLayerwise Proximal Replay(LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠れたアクティベーションの段階的変化のみを可能にする。
論文 参考訳(メタデータ) (2024-02-14T19:34:28Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - Dealing with Cross-Task Class Discrimination in Online Continual
Learning [54.31411109376545]
本稿では,クラスインクリメンタルラーニング(CIL)における新たな課題について論じる。
新しいタスクのクラスと古いタスクの間の決定境界を、古いタスクデータへの(あるいは制限された)アクセスなしで設定する方法。
リプレイ方式では、前のタスクから少量のデータ(再生データ)を節約する。現在のタスクデータのバッチが到着すると、システムは、新しいデータとサンプルデータとを共同でトレーニングする。
本稿では,リプレイ手法には動的トレーニングバイアスの問題があり,CTCD問題の解法におけるリプレイデータの有効性を低下させる。
論文 参考訳(メタデータ) (2023-05-24T02:52:30Z) - Continual Learning with Strong Experience Replay [32.154995019080594]
SER(Strong Experience Replay)を用いたCL法を提案する。
SERは、メモリバッファから過去の経験を蒸留する以外に、現在のトレーニングデータに模倣された将来の経験を利用する。
複数の画像分類データセットによる実験結果から,SER法が最先端の手法をはるかに上回ることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:42:54Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - New Insights on Reducing Abrupt Representation Change in Online
Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。
Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。
本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T01:37:00Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Iterative Network Pruning with Uncertainty Regularization for Lifelong
Sentiment Classification [25.13885692629219]
ディープラーニングにとって、生涯学習は簡単ではない。
本稿では,生涯的感情分類のための不確実性正則化手法を用いた新しい反復型ネットワークプルーニングを提案する。
論文 参考訳(メタデータ) (2021-06-21T15:34:13Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。