論文の概要: Using Curiosity for an Even Representation of Tasks in Continual Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.03177v1
- Date: Tue, 5 Dec 2023 22:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:42:07.882874
- Title: Using Curiosity for an Even Representation of Tasks in Continual Offline
Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるタスク表現への好奇心の活用
- Authors: Pankayaraj Pathmanathan, Natalia D\'iaz-Rodr\'iguez, Javier Del Ser
- Abstract要約: 本稿では,リプレイバッファに好奇性を用いることで,オフラインマルチタスク連続強化学習を改善する方法を検討する。
特に,タスク境界検出ツールとしての好奇心と,古い遷移を維持するための優先度指標としての好奇心の利用について検討する。
これらのバッファは、エージェントのタスクへの露出が時間とともに等しくない場合に、アート再生バッファの状態に悩まされる破滅的な忘れの問題を軽減するために使用できることを示す。
- 参考スコア(独自算出の注目度): 8.623518095412978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the means of using curiosity on replay buffers
to improve offline multi-task continual reinforcement learning when tasks,
which are defined by the non-stationarity in the environment, are non labeled
and not evenly exposed to the learner in time. In particular, we investigate
the use of curiosity both as a tool for task boundary detection and as a
priority metric when it comes to retaining old transition tuples, which we
respectively use to propose two different buffers. Firstly, we propose a Hybrid
Reservoir Buffer with Task Separation (HRBTS), where curiosity is used to
detect task boundaries that are not known due to the task agnostic nature of
the problem. Secondly, by using curiosity as a priority metric when it comes to
retaining old transition tuples, a Hybrid Curious Buffer (HCB) is proposed. We
ultimately show that these buffers, in conjunction with regular reinforcement
learning algorithms, can be used to alleviate the catastrophic forgetting issue
suffered by the state of the art on replay buffers when the agent's exposure to
tasks is not equal along time. We evaluate catastrophic forgetting and the
efficiency of our proposed buffers against the latest works such as the Hybrid
Reservoir Buffer (HRB) and the Multi-Time Scale Replay Buffer (MTR) in three
different continual reinforcement learning settings. Experiments were done on
classical control tasks and Metaworld environment. Experiments show that our
proposed replay buffers display better immunity to catastrophic forgetting
compared to existing works in most of the settings.
- Abstract(参考訳): 本研究では,非定常性によって定義されたタスクが,時間内に学習者に均等に露出していない場合に,リプレイバッファ上で好奇性を用いてオフラインマルチタスク継続強化学習を改善する方法を検討する。
特に,タスク境界検出ツールとしての好奇心と,古いトランジッションタプルを保持する上での優先指標としての好奇心の使用について検討し,それぞれ異なる2つのバッファを提案する。
まず,タスク分離(hrbts)を備えたハイブリッド型リザーババッファを提案する。
第二に、古いトランジションタプルを保持する際に好奇心を優先指標として使うことにより、Hybrid Curious Buffer(HCB)を提案する。
最終的に,これらのバッファは,正規強化学習アルゴリズムとともに,エージェントのタスクへの露出が時間とともに等しくない場合に,リプレイバッファの芸術的状態によって生じる破滅的な忘れる問題を緩和するために使用できることを示した。
我々は,3つの連続的強化学習環境において,Hybrid Reservoir Buffer (HRB) やMulti-Time Scale Replay Buffer (MTR) といった最新の研究に対して,破滅的な記憶とバッファの効率を評価する。
古典的な制御タスクとメタワールド環境の実験が行われた。
実験の結果,提案するリプレイバッファは,ほとんどの設定で既存の作品に比べ,破滅的な忘れやすさに優れることがわかった。
関連論文リスト
- May the Forgetting Be with You: Alternate Replay for Learning with Noisy Labels [16.262555459431155]
本稿では、メモリバッファ内のクリーンで複雑でノイズの多いサンプルの明確な区別を維持するために、忘れることの利点を生かしたAlternate Experience Replay(AER)を紹介する。
得られたバッファの精度と純度の両方の観点から,本手法の有効性を実証し,既存の損失ベース浄化戦略に対して,平均4.71%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-08-26T14:09:40Z) - Watch Your Step: Optimal Retrieval for Continual Learning at Scale [1.7265013728931]
連続学習では、モデルは古いタスクと新しいタスクの間の干渉を最小限にしながら、時間とともに漸進的に学習する。
継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。
本稿では,単純で独立したクラス選択型プリミティブとサンプル選択型プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。
本稿では,重複したリプレイを防止し,損失値の低い新しいサンプルをリプレイなしで学習できるかどうかを探索する戦略を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:35:35Z) - Class-Wise Buffer Management for Incremental Object Detection: An
Effective Buffer Training Strategy [11.109975137910881]
クラスインクリメンタル学習は、既存のモデルに目に見えないクラスインスタンスを継続的に追加する際に発生する問題を解決することを目的としている。
オブジェクト検出に最適化されたリプレイバッファを生成する効果的なバッファトレーニング戦略(eBTS)を導入する。
論文 参考訳(メタデータ) (2023-12-14T17:10:09Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。
提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-16T02:43:52Z) - Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。
最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:59:43Z) - Consistency is the key to further mitigating catastrophic forgetting in
continual learning [14.674494335647841]
Experience Replay (ER) は低バッファ状態と長いタスクシーケンスではうまく動作しない。
ソフトターゲットの予測における一貫性は、ERが以前のタスクに関連する情報を保存するのに役立つ。
自己教師付きプレテキストタスクとして整合性正規化をキャストすることを提案する。
論文 参考訳(メタデータ) (2022-07-11T16:44:49Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Ternary Feature Masks: zero-forgetting for task-incremental learning [68.34518408920661]
本稿では,タスク認識体制の継続的な学習を忘れずにアプローチを提案する。
第三のマスクを使用することで、モデルを新しいタスクにアップグレードしたり、以前のタスクからの知識を再利用したりできます。
本手法は,重みに基づく手法と比較して,メモリオーバーヘッドを低減しつつ,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-01-23T18:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。