論文の概要: Single-Task Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.12639v2
- Date: Fri, 3 May 2024 12:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 17:08:18.870468
- Title: Single-Task Continual Offline Reinforcement Learning
- Title(参考訳): シングルタスク連続オフライン強化学習
- Authors: Sibo Gai, Donglin Wang,
- Abstract要約: オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要があります。
既存のアルゴリズムは、学んだ各オフラインデータセットで最高の結果を得るために、最善を尽くします。
本研究では,経験リプレイに基づくエンサンブルオフライン強化学習という新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.110235967357248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the continual learning problem of single-task offline reinforcement learning. In the past, continual reinforcement learning usually only dealt with multitasking, that is, learning multiple related or unrelated tasks in a row, but once each learned task was learned, it was not relearned, but only used in subsequent processes. However, offline reinforcement learning tasks require the continuously learning of multiple different datasets for the same task. Existing algorithms will try their best to achieve the best results in each offline dataset they have learned and the skills of the network will overwrite the high-quality datasets that have been learned after learning the subsequent poor datasets. On the other hand, if too much emphasis is placed on stability, the network will learn the subsequent better dataset after learning the poor offline dataset, and the problem of insufficient plasticity and non-learning will occur. How to design a strategy that can always preserve the best performance for each state in the data that has been learned is a new challenge and the focus of this study. Therefore, this study proposes a new algorithm, called Ensemble Offline Reinforcement Learning Based on Experience Replay, which introduces multiple value networks to learn the same dataset and judge whether the strategy has been learned by the discrete degree of the value network, to improve the performance of the network in single-task offline reinforcement learning.
- Abstract(参考訳): 本稿では,単一タスクのオフライン強化学習における継続学習問題について検討する。
過去には、連続的な強化学習は、通常マルチタスク、すなわち複数の関連するタスクや無関係なタスクを連続的に学習するだけであったが、一度学習されたタスクが一度学習されると、それは再学習されるのではなく、その後のプロセスでのみ使用される。
しかし、オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要がある。
既存のアルゴリズムは、学習した各オフラインデータセットで最高の結果を得るために最善を尽くし、ネットワークのスキルは、その後の貧弱なデータセットを学習した後に学んだ高品質なデータセットを上書きする。
一方、安定性に重きを置くと、オフラインデータセットの貧弱な学習後、ネットワークはその後のより良いデータセットを学習し、可塑性と非学習の問題が発生する。
学習したデータにおいて、各状態の最高のパフォーマンスを常に維持できる戦略を設計する方法は、新しい課題であり、この研究の焦点である。
そこで本研究では,経験リプレイに基づくエンサンブルオフライン強化学習(Ensemble Offline Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - DCUR: Data Curriculum for Teaching via Samples with Reinforcement
Learning [6.9884912034790405]
本稿では,オンライン深層学習を用いた教員教育を行うためのフレームワーク,Data CUrriculum for Reinforcement Learning (DCUR)を提案する。
そして、オフラインのRLを実行するか、少量の自己生成データと組み合わせて教師データを使用することで学習する。
論文 参考訳(メタデータ) (2021-09-15T15:39:46Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。