論文の概要: Layerwise Proximal Replay: A Proximal Point Method for Online Continual
Learning
- arxiv url: http://arxiv.org/abs/2402.09542v1
- Date: Wed, 14 Feb 2024 19:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:06:12.601226
- Title: Layerwise Proximal Replay: A Proximal Point Method for Online Continual
Learning
- Title(参考訳): layerwise proximal replay: オンライン連続学習のための近位点法
- Authors: Jason Yoo, Yunpeng Liu, Frank Wood, Geoff Pleiss
- Abstract要約: オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験的リプレイ(experience replay)を採用している。
我々のソリューションであるLayerwise Proximal Replay(LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠れたアクティベーションの段階的変化のみを可能にする。
- 参考スコア(独自算出の注目度): 24.04262981398267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In online continual learning, a neural network incrementally learns from a
non-i.i.d. data stream. Nearly all online continual learning methods employ
experience replay to simultaneously prevent catastrophic forgetting and
underfitting on past data. Our work demonstrates a limitation of this approach:
networks trained with experience replay tend to have unstable optimization
trajectories, impeding their overall accuracy. Surprisingly, these
instabilities persist even when the replay buffer stores all previous training
examples, suggesting that this issue is orthogonal to catastrophic forgetting.
We minimize these instabilities through a simple modification of the
optimization geometry. Our solution, Layerwise Proximal Replay (LPR), balances
learning from new and replay data while only allowing for gradual changes in
the hidden activation of past data. We demonstrate that LPR consistently
improves replay-based online continual learning methods across multiple problem
settings, regardless of the amount of available replay memory.
- Abstract(参考訳): オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。
ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験リプレイを用いている。
経験的なリプレイで訓練されたネットワークは不安定な最適化軌道を持つ傾向があり、全体的な精度を損なう。
驚くべきことに、これらの不安定性は、リプレイバッファが以前のトレーニング例をすべて格納している場合でも持続する。
最適化幾何の簡単な修正により、これらの不安定性を最小化する。
我々のソリューションであるLayerwise Proximal Replay (LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠されたアクティベーションの段階的な変更のみを可能にします。
LPRは、利用可能なリプレイメモリの量に関係なく、複数の問題設定にまたがるリプレイベースのオンライン連続学習手法を一貫して改善することを示した。
関連論文リスト
- TEAL: New Selection Strategy for Small Buffers in Experience Replay Class Incremental Learning [7.627299398469962]
TEALは,メモリを例に示す新しい手法である。
TEAL は複数の画像認識ベンチマークにおいて,SOTA 法 XDER と ER と ER-ACE の平均精度を向上することを示す。
論文 参考訳(メタデータ) (2024-06-30T12:09:08Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - OER: Offline Experience Replay for Continual Offline Reinforcement Learning [25.985985377992034]
エージェントには、事前にコンパイルされたオフラインデータセットのシーケンスを通じて、新たなスキルを継続的に学習することが望ましい。
本稿では、エージェントが一連のオフライン強化学習タスクを学習する、新しい設定である連続オフライン強化学習(CORL)を定式化する。
本稿では,リプレイバッファを構築するためのモデルベースエクスペリエンス選択手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T08:16:44Z) - Adiabatic replay for continual learning [138.7878582237908]
生成的リプレイは、すでに知られていることを再学習するだけで、より多くの時間を費やします。
我々は、アディバティック・リプレイ(AR)と呼ぶリプレイベースのCL戦略を提案する。
VAEを用いた最先端の深層再生よりもARの方が優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2023-03-23T10:18:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Learning to Continually Learn Rapidly from Few and Noisy Data [19.09933805011466]
新しいタスクを学習しながら、外部に格納された古いデータを同時にトレーニングすることで、継続的な学習を実現することができる。
過去のタスクごとに学習率をテキスト学習するメタラーニングナを使用することで、ベース学習者は少ないメモリで強力な結果が得られることが分かりました。
論文 参考訳(メタデータ) (2021-03-06T08:29:47Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。