論文の概要: Data-Incremental Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12639v3
- Date: Mon, 16 Dec 2024 15:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:47.891468
- Title: Data-Incremental Continual Offline Reinforcement Learning
- Title(参考訳): データインクリメンタルオフライン強化学習
- Authors: Sibo Gai, Donglin Wang,
- Abstract要約: データインクリメンタルオフライン強化学習(DICORL)という,連続学習の新たな設定を提案する。
DICORLでは、エージェントは、各データセットでオフラインRLタスクのシーケンスを学ぶのではなく、単一のオフライン強化学習(RL)タスクのデータセットのシーケンスを継続的に学習するように求められます。
実験の結果,EREIQLはDICORLの能動的忘れを緩和し,良好な性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 25.110235967357248
- License:
- Abstract: In this work, we propose a new setting of continual learning: data-incremental continual offline reinforcement learning (DICORL), in which an agent is asked to learn a sequence of datasets of a single offline reinforcement learning (RL) task continually, instead of learning a sequence of offline RL tasks with respective datasets. Then, we propose that this new setting will introduce a unique challenge to continual learning: active forgetting, which means that the agent will forget the learnt skill actively. The main reason for active forgetting is conservative learning used by offline RL, which is used to solve the overestimation problem. With conservative learning, the offline RL method will suppress the value of all actions, learnt or not, without selection, unless it is in the just learning dataset. Therefore, inferior data may overlay premium data because of the learning sequence. To solve this problem, we propose a new algorithm, called experience-replay-based ensemble implicit Q-learning (EREIQL), which introduces multiple value networks to reduce the initial value and avoid using conservative learning, and the experience replay to relieve catastrophic forgetting. Our experiments show that EREIQL relieves active forgetting in DICORL and performs well.
- Abstract(参考訳): そこで本研究では,データインクリメンタルなオフライン強化学習(DICORL)という,単一のオフライン強化学習(RL)タスクのデータセット列を連続的に学習するようエージェントに依頼する。
そこで,本研究では,継続学習において,エージェントが学習スキルを積極的に忘れるという,ユニークな課題を導入することを提案する。
アクティブな忘れ物の主な理由は、過大評価問題を解決するために使われるオフラインRLが使用する保守的な学習である。
保守的な学習では、オフラインのRLメソッドは、単に学習データセットにない限り、選択なしで学習するか否かに関わらず、すべてのアクションの価値を抑える。
したがって、学習シーケンスのため、劣ったデータはプレミアムデータをオーバーレイすることができる。
この問題を解決するために,経験再生に基づく暗黙的Q-ラーニング (EREIQL) と呼ばれる新しいアルゴリズムを提案する。
実験の結果,EREIQLはDICORLの能動的忘れを緩和し,良好な性能を示すことがわかった。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - DCUR: Data Curriculum for Teaching via Samples with Reinforcement
Learning [6.9884912034790405]
本稿では,オンライン深層学習を用いた教員教育を行うためのフレームワーク,Data CUrriculum for Reinforcement Learning (DCUR)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
論文 参考訳(メタデータ) (2021-09-15T15:39:46Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。