論文の概要: Data-Incremental Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12639v3
- Date: Mon, 16 Dec 2024 15:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:49:47.891468
- Title: Data-Incremental Continual Offline Reinforcement Learning
- Title(参考訳): データインクリメンタルオフライン強化学習
- Authors: Sibo Gai, Donglin Wang,
- Abstract要約: データインクリメンタルオフライン強化学習(DICORL)という,連続学習の新たな設定を提案する。
DICORLでは、エージェントは、各データセットでオフラインRLタスクのシーケンスを学ぶのではなく、単一のオフライン強化学習(RL)タスクのデータセットのシーケンスを継続的に学習するように求められます。
実験の結果,EREIQLはDICORLの能動的忘れを緩和し,良好な性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 25.110235967357248
- License:
- Abstract: In this work, we propose a new setting of continual learning: data-incremental continual offline reinforcement learning (DICORL), in which an agent is asked to learn a sequence of datasets of a single offline reinforcement learning (RL) task continually, instead of learning a sequence of offline RL tasks with respective datasets. Then, we propose that this new setting will introduce a unique challenge to continual learning: active forgetting, which means that the agent will forget the learnt skill actively. The main reason for active forgetting is conservative learning used by offline RL, which is used to solve the overestimation problem. With conservative learning, the offline RL method will suppress the value of all actions, learnt or not, without selection, unless it is in the just learning dataset. Therefore, inferior data may overlay premium data because of the learning sequence. To solve this problem, we propose a new algorithm, called experience-replay-based ensemble implicit Q-learning (EREIQL), which introduces multiple value networks to reduce the initial value and avoid using conservative learning, and the experience replay to relieve catastrophic forgetting. Our experiments show that EREIQL relieves active forgetting in DICORL and performs well.
- Abstract(参考訳): そこで本研究では,データインクリメンタルなオフライン強化学習(DICORL)という,単一のオフライン強化学習(RL)タスクのデータセット列を連続的に学習するようエージェントに依頼する。
そこで,本研究では,継続学習において,エージェントが学習スキルを積極的に忘れるという,ユニークな課題を導入することを提案する。
アクティブな忘れ物の主な理由は、過大評価問題を解決するために使われるオフラインRLが使用する保守的な学習である。
保守的な学習では、オフラインのRLメソッドは、単に学習データセットにない限り、選択なしで学習するか否かに関わらず、すべてのアクションの価値を抑える。
したがって、学習シーケンスのため、劣ったデータはプレミアムデータをオーバーレイすることができる。
この問題を解決するために,経験再生に基づく暗黙的Q-ラーニング (EREIQL) と呼ばれる新しいアルゴリズムを提案する。
実験の結果,EREIQLはDICORLの能動的忘れを緩和し,良好な性能を示すことがわかった。
関連論文リスト
- A Unified Framework for Continual Learning and Machine Unlearning [9.538733681436836]
継続的学習と機械学習は機械学習において重要な課題であり、通常は別々に対処される。
制御された知識蒸留を活用することによって,両課題に共同で取り組む新しい枠組みを導入する。
我々のアプローチは、最小限の忘れ込みと効果的な標的未学習で効率的な学習を可能にする。
論文 参考訳(メタデータ) (2024-08-21T06:49:59Z) - Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Online Continual Learning Via Candidates Voting [7.704949298975352]
クラス増分設定下でのオンライン連続学習に有効でメモリ効率のよい手法を提案する。
提案手法は, CIFAR-10, CIFAR-100, CORE-50など, オンライン連続学習のためのベンチマークデータセットを用いて, 最適な結果を得る。
論文 参考訳(メタデータ) (2021-10-17T15:45:32Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。
また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文 参考訳(メタデータ) (2020-02-26T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。