論文の概要: Single-Task Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12639v1
- Date: Fri, 19 Apr 2024 05:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 16:05:28.726925
- Title: Single-Task Continual Offline Reinforcement Learning
- Title(参考訳): シングルタスク連続オフライン強化学習
- Authors: Sibo Gai, Donglin Wang,
- Abstract要約: オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要があります。
既存のアルゴリズムは、学んだ各オフラインデータセットで最高の結果を得るために、最善を尽くします。
本研究では,経験リプレイに基づくエンサンブルオフライン強化学習という新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.110235967357248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the continual learning problem of single-task offline reinforcement learning. In the past, continual reinforcement learning usually only dealt with multitasking, that is, learning multiple related or unrelated tasks in a row, but once each learned task was learned, it was not relearned, but only used in subsequent processes. However, offline reinforcement learning tasks require the continuously learning of multiple different datasets for the same task. Existing algorithms will try their best to achieve the best results in each offline dataset they have learned and the skills of the network will overwrite the high-quality datasets that have been learned after learning the subsequent poor datasets. On the other hand, if too much emphasis is placed on stability, the network will learn the subsequent better dataset after learning the poor offline dataset, and the problem of insufficient plasticity and non-learning will occur. How to design a strategy that can always preserve the best performance for each state in the data that has been learned is a new challenge and the focus of this study. Therefore, this study proposes a new algorithm, called Ensemble Offline Reinforcement Learning Based on Experience Replay, which introduces multiple value networks to learn the same dataset and judge whether the strategy has been learned by the discrete degree of the value network, to improve the performance of the network in single-task offline reinforcement learning.
- Abstract(参考訳): 本稿では,単一タスクのオフライン強化学習における継続学習問題について検討する。
過去には、連続的な強化学習は、通常マルチタスク、すなわち複数の関連するタスクや無関係なタスクを連続的に学習するだけであったが、一度学習されたタスクが一度学習されると、それは再学習されるのではなく、その後のプロセスでのみ使用される。
しかし、オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要がある。
既存のアルゴリズムは、学習した各オフラインデータセットで最高の結果を得るために最善を尽くし、ネットワークのスキルは、その後の貧弱なデータセットを学習した後に学んだ高品質なデータセットを上書きする。
一方、安定性に重きを置くと、オフラインデータセットの貧弱な学習後、ネットワークはその後のより良いデータセットを学習し、可塑性と非学習の問題が発生する。
学習したデータにおいて、各状態の最高のパフォーマンスを常に維持できる戦略を設計する方法は、新しい課題であり、この研究の焦点である。
そこで本研究では,経験リプレイに基づくエンサンブルオフライン強化学習(Ensemble Offline Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。
関連論文リスト
- A Unified Framework for Continual Learning and Machine Unlearning [9.538733681436836]
継続的学習と機械学習は機械学習において重要な課題であり、通常は別々に対処される。
制御された知識蒸留を活用することによって,両課題に共同で取り組む新しい枠組みを導入する。
我々のアプローチは、最小限の忘れ込みと効果的な標的未学習で効率的な学習を可能にする。
論文 参考訳(メタデータ) (2024-08-21T06:49:59Z) - Negotiated Representations to Prevent Forgetting in Machine Learning
Applications [0.0]
破滅的な忘れは、機械学習の分野で重要な課題である。
本稿では,機械学習アプリケーションにおける破滅的忘れを防止する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-30T22:43:50Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Online Continual Learning Via Candidates Voting [7.704949298975352]
クラス増分設定下でのオンライン連続学習に有効でメモリ効率のよい手法を提案する。
提案手法は, CIFAR-10, CIFAR-100, CORE-50など, オンライン連続学習のためのベンチマークデータセットを用いて, 最適な結果を得る。
論文 参考訳(メタデータ) (2021-10-17T15:45:32Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Provable Meta-Learning of Linear Representations [114.656572506859]
我々は、複数の関連するタスクから共通の機能の集合を学習し、その知識を新しい未知のタスクに転送する、という2つの課題に対処する、高速でサンプル効率のアルゴリズムを提供する。
また、これらの線形特徴を学習する際のサンプルの複雑さに関する情報理論の下限も提供する。
論文 参考訳(メタデータ) (2020-02-26T18:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。