論文の概要: Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity
- arxiv url: http://arxiv.org/abs/2504.20932v1
- Date: Tue, 29 Apr 2025 16:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.00053
- Title: Improvements of Dark Experience Replay and Reservoir Sampling towards Better Balance between Consolidation and Plasticity
- Title(参考訳): コンソリデーションと塑性のバランス改善に向けた暗黒体験再現と貯留層サンプリングの改良
- Authors: Taisuke Kobayashi,
- Abstract要約: 継続的学習は、自律的なエージェントにとって最も重要な能力の1つである。
過去のアウトプットを保持する能力は、分布シフトやその他の影響によって過去のアウトプットが間違っていた場合の学習を阻害する。
本稿では,各DERとRSの改善戦略を提案する。
- 参考スコア(独自算出の注目度): 6.20048328543366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning is the one of the most essential abilities for autonomous agents, which can incrementally learn daily-life skills. For this ultimate goal, a simple but powerful method, dark experience replay (DER), has been proposed recently. DER mitigates catastrophic forgetting, in which the skills acquired in the past are unintentionally forgotten, by stochastically storing the streaming data in a reservoir sampling (RS) buffer and by relearning them or retaining the past outputs for them. However, since DER considers multiple objectives, it will not function properly without appropriate weighting of them. In addition, the ability to retain past outputs inhibits learning if the past outputs are incorrect due to distribution shift or other effects. This is due to a tradeoff between memory consolidation and plasticity. The tradeoff is hidden even in the RS buffer, which gradually stops storing new data for new skills in it as data is continuously passed to it. To alleviate the tradeoff and achieve better balance, this paper proposes improvement strategies to each of DER and RS. Specifically, DER is improved with automatic adaptation of weights, block of replaying erroneous data, and correction of past outputs. RS is also improved with generalization of acceptance probability, stratification of plural buffers, and intentional omission of unnecessary data. These improvements are verified through multiple benchmarks including regression, classification, and reinforcement learning problems. As a result, the proposed methods achieve steady improvements in learning performance by balancing the memory consolidation and plasticity.
- Abstract(参考訳): 継続的学習は自律的なエージェントにとって最も重要な能力の1つであり、日々のスキルを段階的に学習することができる。
この最終的な目的のために、最近、シンプルだが強力な方法であるダークエクスペリエンス・リプレイ(DER)が提案されている。
DERは、貯水池サンプリング(RS)バッファにストリーミングデータを確率的に保存し、それらを再学習したり、過去の出力を保持することにより、過去に取得したスキルが意図せずに忘れられる破滅的な忘れを緩和する。
しかし、DERは複数の目的を考慮しているため、適切な重み付けなしでは適切に機能しない。
さらに、過去の出力を保持する能力は、分布シフトやその他の影響により過去の出力が間違っていた場合の学習を阻害する。
これは、メモリ統合と可塑性のトレードオフによるものである。
トレードオフはRSバッファにも隠され、データが継続的に渡されるにつれて、新たなスキルのための新たなデータの保存が徐々に停止する。
本稿では,トレードオフを緩和し,バランスを改善するために,DERとRSの改善戦略を提案する。
具体的には、重みの自動適応、誤データの再生ブロック、過去の出力の補正により、DERを改良する。
RSは、受理確率の一般化、複数のバッファの成層化、不必要なデータの意図的に省略することで改善される。
これらの改善は、回帰、分類、強化学習問題を含む複数のベンチマークを通じて検証される。
その結果,提案手法は,記憶の整合性と可塑性のバランスをとることにより,学習性能を安定的に向上させることができた。
関連論文リスト
- May the Forgetting Be with You: Alternate Replay for Learning with Noisy Labels [16.262555459431155]
本稿では、メモリバッファ内のクリーンで複雑でノイズの多いサンプルの明確な区別を維持するために、忘れることの利点を生かしたAlternate Experience Replay(AER)を紹介する。
得られたバッファの精度と純度の両方の観点から,本手法の有効性を実証し,既存の損失ベース浄化戦略に対して,平均4.71%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-08-26T14:09:40Z) - Improving Data-aware and Parameter-aware Robustness for Continual Learning [3.480626767752489]
本報告では, オフラヤの非効率な取扱いから, この不整合が生じることを解析する。
本稿では,ロバスト連続学習(RCL)手法を提案する。
提案手法は, 堅牢性を効果的に維持し, 新たなSOTA(State-of-the-art)結果を得る。
論文 参考訳(メタデータ) (2024-05-27T11:21:26Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Balanced Destruction-Reconstruction Dynamics for Memory-replay Class
Incremental Learning [27.117753965919025]
クラスインクリメンタルラーニング(CIL)は、トレーニングされたモデルを新しいクラスのサンプルでインクリメンタルに更新することを目的としている。
メモリリプレイ CIL は、メモリに格納された少数の古いサンプルのクラスをリプレイすることで、古い知識を集約する。
理論解析により, 過去の知識の破壊は, 現段階からのサンプルと記憶に蓄えられたサンプルの寄与のバランスをとることで効果的に軽減できることが示唆された。
論文 参考訳(メタデータ) (2023-08-03T11:33:50Z) - Improving information retention in large scale online continual learning [99.73847522194549]
オンライン連続学習は、既存の知識を維持しながら、新しいデータに効率的に適応することを目的としている。
最近の研究は、リプレイバッファが無制限であっても、大規模なOCLでは情報保持が問題であり続けていることを示唆している。
非定常目標に対する最適化を改善するため,移動平均の手法群を提案する。
論文 参考訳(メタデータ) (2022-10-12T16:59:43Z) - Queried Unlabeled Data Improves and Robustifies Class-Incremental
Learning [133.39254981496146]
クラス増分学習(Class-incremental Learning, CIL)は、新たに追加されたクラスを学習することと、以前に学習したクラス知識を保存することの間の悪名高いジレンマに悩まされる。
我々は、連続学習において「自由」な外部ラベル付きデータクエリを活用することを提案する。
CIL-QUDを堅牢化したバージョンにシームレスに拡張する。
論文 参考訳(メタデータ) (2022-06-15T22:53:23Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Adaptive and Multiple Time-scale Eligibility Traces for Online Deep
Reinforcement Learning [8.071506311915396]
本手法は, サンプル効率向上のためのオンライン学習手法としてよく知られている。
ディープニューラルネットワークのパラメータ間の依存性は、適性トレースを破壊するため、DRLと統合されない。
本研究では,高い試料効率を維持しつつ,DRLでも使用可能な新しい可視性トレース手法を提案する。
論文 参考訳(メタデータ) (2020-08-23T13:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。