論文の概要: A simple but strong baseline for online continual learning: Repeated
Augmented Rehearsal
- arxiv url: http://arxiv.org/abs/2209.13917v1
- Date: Wed, 28 Sep 2022 08:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:01:05.813678
- Title: A simple but strong baseline for online continual learning: Repeated
Augmented Rehearsal
- Title(参考訳): オンライン連続学習のための単純だが強固なベースライン: 繰り返し強化リハーサル
- Authors: Yaqian Zhang, Bernhard Pfahringer, Eibe Frank, Albert Bifet, Nick Jin
Sean Lim, Yunzhe Jia
- Abstract要約: オンライン連続学習(OCL)は、単一のデータパスで、非定常データストリームからニューラルネットワークを漸進的にトレーニングすることを目的としている。
リハーサルベースの手法は、観測された入力分布を小さなメモリで時間とともに近似し、後にそれを再検討して、忘れることを避ける。
本稿では,バイアスや動的経験的リスク最小化の観点から,メモリ過適合リスクに関する理論的知見を提供する。
- 参考スコア(独自算出の注目度): 13.075018350152074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online continual learning (OCL) aims to train neural networks incrementally
from a non-stationary data stream with a single pass through data.
Rehearsal-based methods attempt to approximate the observed input distributions
over time with a small memory and revisit them later to avoid forgetting.
Despite its strong empirical performance, rehearsal methods still suffer from a
poor approximation of the loss landscape of past data with memory samples. This
paper revisits the rehearsal dynamics in online settings. We provide
theoretical insights on the inherent memory overfitting risk from the viewpoint
of biased and dynamic empirical risk minimization, and examine the merits and
limits of repeated rehearsal. Inspired by our analysis, a simple and intuitive
baseline, Repeated Augmented Rehearsal (RAR), is designed to address the
underfitting-overfitting dilemma of online rehearsal. Surprisingly, across four
rather different OCL benchmarks, this simple baseline outperforms vanilla
rehearsal by 9%-17% and also significantly improves state-of-the-art
rehearsal-based methods MIR, ASER, and SCR. We also demonstrate that RAR
successfully achieves an accurate approximation of the loss landscape of past
data and high-loss ridge aversion in its learning trajectory. Extensive
ablation studies are conducted to study the interplay between repeated and
augmented rehearsal and reinforcement learning (RL) is applied to dynamically
adjust the hyperparameters of RAR to balance the stability-plasticity trade-off
online.
- Abstract(参考訳): オンライン連続学習(OCL)は、単一のデータパスで、非定常データストリームからニューラルネットワークを漸進的にトレーニングすることを目的としている。
リハーサルベースの手法は、観測された入力分布を小さなメモリで時間とともに近似し、後にそれを再検討して、忘れることを避ける。
強い経験的性能にもかかわらず、リハーサル法は記憶サンプルによる過去のデータの損失状況の近似が不十分である。
本稿では,オンライン設定におけるリハーサルダイナミクスを再考する。
本稿では, バイアスや動的経験的リスク最小化の観点から, メモリ過適合リスクに関する理論的考察を行い, 繰り返しリハーサルのメリットと限界について検討する。
オンラインリハーサルの過度な過度なジレンマに対処するために,単純で直感的なベースラインであるreplicated augmented rehearsal(rar)を考案した。
驚くべきことに、4つのかなり異なるOCLベンチマークにおいて、この単純なベースラインはバニラリハーサルを9%-17%上回り、また最先端のリハーサルベースのメソッドであるMIR、ASER、SCRを大幅に改善している。
また,RARは過去のデータにおける損失景観の正確な近似と,学習軌道における高損失隆起の回避を実現していることを示す。
繰り返しリハーサルと強化学習(RL)の相互作用を解析し、RARのハイパーパラメータを動的に調整し、オンラインでの安定性と塑性のトレードオフをバランスさせる。
関連論文リスト
- Heterogeneous Learning Rate Scheduling for Neural Architecture Search on Long-Tailed Datasets [0.0]
本稿では,DARTSのアーキテクチャパラメータに適した適応学習率スケジューリング手法を提案する。
提案手法は,学習エポックに基づくアーキテクチャパラメータの学習率を動的に調整し,よく訓練された表現の破壊を防止する。
論文 参考訳(メタデータ) (2024-06-11T07:32:25Z) - Contrastive Continual Learning with Importance Sampling and
Prototype-Instance Relation Distillation [14.25441464051506]
本稿では,従来のデータ分布を復元し,知識の保存を目的としたコントラスト連続学習(Contrastive Continual Learning via Importance Smpling, CCLIS)を提案する。
また,プロトタイプとサンプル表現の関係を維持する技術であるPRD(Prototype-instance Relation Distillation)の損失について述べる。
論文 参考訳(メタデータ) (2024-03-07T15:47:52Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Prioritized Trajectory Replay: A Replay Memory for Data-driven
Reinforcement Learning [52.49786369812919]
本稿では,サンプリング視点をトラジェクトリに拡張するメモリ技術である(Prioritized) Trajectory Replay (TR/PTR)を提案する。
TRは、その後の状態情報の使用を最適化するトラジェクトリの後方サンプリングによって学習効率を向上させる。
D4RL上の既存のオフラインRLアルゴリズムとTRとPTRを統合する利点を実証する。
論文 参考訳(メタデータ) (2023-06-27T14:29:44Z) - PCR: Proxy-based Contrastive Replay for Online Class-Incremental
Continual Learning [16.67238259139417]
既存のリプレイベースのメソッドは、プロキシベースのあるいはコントラストベースのリプレイ方式で古いデータの一部を保存し、再生することで、この問題を効果的に緩和する。
プロキシベースコントラストリプレイ(PCR)と呼ばれる新しいリプレイ方式を提案する。
論文 参考訳(メタデータ) (2023-04-10T06:35:19Z) - Look Back When Surprised: Stabilizing Reverse Experience Replay for
Neural Approximation [7.6146285961466]
最近開発された理論上は厳格なリバース・エクスペリエンス・リプレイ(RER)について考察する。
実験を通して、様々なタスクにおけるPER(Preferd Experience Replay)のようなテクニックよりも優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-06-07T10:42:02Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Continual Learning in Recurrent Neural Networks [67.05499844830231]
リカレントニューラルネットワーク(RNN)を用いた逐次データ処理における連続学習手法の有効性を評価する。
RNNに弾性重み強化などの重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重み-重
そこで本研究では,重み付け手法の性能が処理シーケンスの長さに直接的な影響を受けず,むしろ高動作メモリ要求の影響を受けていることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。