論文の概要: Replay-enhanced Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.11557v1
- Date: Mon, 20 Nov 2023 06:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 19:57:14.856898
- Title: Replay-enhanced Continual Reinforcement Learning
- Title(参考訳): リプレイエンハンス型連続強化学習
- Authors: Tiantian Zhang, Kevin Zehua Shen, Zichuan Lin, Bo Yuan, Xueqian Wang,
Xiu Li, Deheng Ye
- Abstract要約: 本稿では,新しいタスクにおける既存のリプレイ方式の可塑性を大幅に向上させるリプレイ拡張手法であるRECALLを紹介する。
Continual Worldベンチマークの実験では、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 37.34722105058351
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Replaying past experiences has proven to be a highly effective approach for
averting catastrophic forgetting in supervised continual learning. However,
some crucial factors are still largely ignored, making it vulnerable to serious
failure, when used as a solution to forgetting in continual reinforcement
learning, even in the context of perfect memory where all data of previous
tasks are accessible in the current task. On the one hand, since most
reinforcement learning algorithms are not invariant to the reward scale, the
previously well-learned tasks (with high rewards) may appear to be more salient
to the current learning process than the current task (with small initial
rewards). This causes the agent to concentrate on those salient tasks at the
expense of generality on the current task. On the other hand, offline learning
on replayed tasks while learning a new task may induce a distributional shift
between the dataset and the learned policy on old tasks, resulting in
forgetting. In this paper, we introduce RECALL, a replay-enhanced method that
greatly improves the plasticity of existing replay-based methods on new tasks
while effectively avoiding the recurrence of catastrophic forgetting in
continual reinforcement learning. RECALL leverages adaptive normalization on
approximate targets and policy distillation on old tasks to enhance generality
and stability, respectively. Extensive experiments on the Continual World
benchmark show that RECALL performs significantly better than purely perfect
memory replay, and achieves comparable or better overall performance against
state-of-the-art continual learning methods.
- Abstract(参考訳): 過去の経験を再現することは、教師付き連続学習における破滅的な忘れを回避できる非常に効果的なアプローチであることが証明されている。
しかしながら、いくつかの重要な要因は依然として無視されており、現在のタスクで以前のタスクのすべてのデータがアクセス可能な完全なメモリであっても、継続的な強化学習を忘れる解決策として使用される場合、深刻な障害に対して脆弱である。
一方、ほとんどの強化学習アルゴリズムは報酬尺度に不変ではないため、以前十分に学習されたタスク(高い報酬)は、現在のタスクよりも現在の学習プロセスに有益であるように思える(初期報酬は小さい)。
これにより、エージェントは、現在のタスクの一般性を犠牲にして、これらの健全なタスクに集中する。
一方、新しいタスクを学習しながらリプレイされたタスクのオフライン学習は、データセットと古いタスクの学習ポリシーの間の分散シフトを誘発し、忘れてしまう可能性がある。
本稿では,新しい課題に対する既存のリプレイベース手法の可塑性を大幅に向上させ,連続的強化学習における壊滅的忘れの再発を効果的に回避するリコール手法を提案する。
RECALLは、近似目標の適応正規化と古いタスクのポリシー蒸留を利用して、それぞれ一般化と安定性を高める。
Continual Worldベンチマークの大規模な実験により、RECALLは純粋に完全なメモリリプレイよりもはるかに優れたパフォーマンスを示し、最先端の継続的学習手法に対して同等またはより優れた全体的なパフォーマンスを実現している。
関連論文リスト
- Class-Incremental Learning Using Generative Experience Replay Based on
Time-aware Regularization [24.143811670210546]
生成体験 リプレイは、忘れずに蓄積的に新しいタスクを学ぶという課題に対処する。
生成的再生に用いる3つの学習目標語を微調整するための時間認識正規化手法を提案する。
実験結果から,本手法は脳に触発された連続学習者の限界を,そのような厳密な条件下で押し上げることが示唆された。
論文 参考訳(メタデータ) (2023-10-05T21:07:45Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - AdaER: An Adaptive Experience Replay Approach for Continual Lifelong
Learning [16.457330925212606]
持続的生涯学習の課題に対処するために,適応的経験リプレイ(AdaER)を提案する。
AdaERはメモリリプレイとメモリ更新という2つのステージで構成されている。
結果: AdaERは、既存の持続的生涯学習ベースラインを上回っている。
論文 参考訳(メタデータ) (2023-08-07T01:25:45Z) - Detachedly Learn a Classifier for Class-Incremental Learning [11.865788374587734]
本稿では,バニラ体験リプレイ(ER)の失敗は,従来のタスクの不要な再学習と,現在のタスクと以前のタスクとを区別する能力の欠如が原因であることを示す。
本稿では,新しいリプレイ戦略・タスク認識体験リプレイを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T01:35:44Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Center Loss Regularization for Continual Learning [0.0]
一般的に、ニューラルネットワークには、さまざまなタスクを逐次学習する能力がない。
提案手法では,従来のタスクに近い新しいタスクの表現を投影することで,古いタスクを記憶する。
提案手法は,最先端の継続的学習手法と比較して,スケーラブルで効果的で,競争力のある性能を示す。
論文 参考訳(メタデータ) (2021-10-21T17:46:44Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Continual Deep Learning by Functional Regularisation of Memorable Past [95.97578574330934]
知的システムにとって、新しいスキルを継続的に学習することは重要だが、標準的なディープラーニング手法は、過去の破滅的な忘れ物に悩まされている。
本稿では, 過去の記憶に残るいくつかの例を, 忘れることを避けるために活用する機能正規化手法を提案する。
提案手法は,標準ベンチマーク上での最先端性能を実現し,正規化とメモリベースの手法を自然に組み合わせた生涯学習の新たな方向性を開拓する。
論文 参考訳(メタデータ) (2020-04-29T10:47:54Z) - Generalized Hindsight for Reinforcement Learning [154.0545226284078]
1つのタスクを解決しようとするときに収集された低リワードデータは、そのタスクを解決するための信号をほとんど、あるいは全く提供しない、と我々は主張する。
本稿では,動作を適切なタスクで再現するための近似逆強化学習手法であるGeneralized Hindsightを提案する。
論文 参考訳(メタデータ) (2020-02-26T18:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。