論文の概要: Forget Forgetting: Continual Learning in a World of Abundant Memory
- arxiv url: http://arxiv.org/abs/2502.07274v4
- Date: Wed, 01 Oct 2025 18:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:19.672158
- Title: Forget Forgetting: Continual Learning in a World of Abundant Memory
- Title(参考訳): Forget Forgetting: 相反する記憶の世界における継続的な学習
- Authors: Dongkyu Cho, Taesup Moon, Rumi Chunara, Kyunghyun Cho, Sungmin Cha,
- Abstract要約: 継続的な学習は伝統的に、模範記憶の最小化に重点を置いてきた。
本稿では、より現実的な体制を探求することによって、このパラダイムに挑戦する。
モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、中心的な課題が安定性から可塑性へと変化していくことが分かっています。
- 参考スコア(独自算出の注目度): 55.64184779530581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) has traditionally focused on minimizing exemplar memory, a constraint often misaligned with modern systems where GPU time, not storage, is the primary bottleneck. This paper challenges this paradigm by investigating a more realistic regime: one where memory is abundant enough to mitigate forgetting, but full retraining from scratch remains prohibitively expensive. In this practical "middle ground", we find that the core challenge shifts from stability to plasticity, as models become biased toward prior tasks and struggle to learn new ones. Conversely, improved stability allows simple replay baselines to outperform the state-of-the-art methods at a fraction of the GPU cost. To address this newly surfaced trade-off, we propose Weight Space Consolidation, a lightweight method that combines (1) rank-based parameter resets to restore plasticity with (2) weight averaging to enhance stability. Validated on both class-incremental learning with image classifiers and continual instruction tuning with large language models, our approach outperforms strong baselines while matching the low computational cost of replay, offering a scalable alternative to expensive full-retraining. These findings challenge long-standing CL assumptions and establish a new, cost-efficient baseline for real-world CL systems where exemplar memory is no longer the limiting factor.
- Abstract(参考訳): 従来、CL(Continuous Learning)は、典型的なメモリの最小化に重点を置いてきた。
本論文は,記憶が忘れを軽減できるほど豊富だが,スクラッチからの完全な再トレーニングは違法に高価である,という,より現実的な体制を探求することによって,このパラダイムに挑戦する。
この実践的な“中間の土台”では、モデルが以前のタスクに偏り、新しいタスクを学ぶのに苦労するようになるにつれて、コアチャレンジが安定性から可塑性へと変化することが分かっています。
逆に、安定性の向上により、単純なリプレイベースラインがGPUコストのごく一部で最先端のメソッドより優れている。
この新たなトレードオフに対処するため,(1)階数に基づくパラメータリセットと(2)重み平均化を併用して安定性を高める軽量な手法である重み空間統合を提案する。
画像分類器によるクラス増分学習と,大規模言語モデルによる連続的指導訓練の両方で検証し,計算コストの低いリプレイに適合しながら,高いベースラインを達成し,高額なフルリトレーニングに代わるスケーラブルな代替手段を提供する。
これらの知見は、長年のCL仮定に挑戦し、模範記憶がもはや制限要因ではない実世界のCLシステムの新しいコスト効率のベースラインを確立する。
関連論文リスト
- An Efficient Training Algorithm for Models with Block-wise Sparsity [6.882042556551613]
本稿では,学習と推論において,計算コストとメモリコストの両方を削減できる効率的なトレーニングアルゴリズムを提案する。
我々のアルゴリズムは、ベースラインに比べて性能低下を伴わずに計算とメモリコストを大幅に削減できる。
論文 参考訳(メタデータ) (2025-03-27T19:14:27Z) - Balcony: A Lightweight Approach to Dynamic Inference of Generative Language Models [31.103832542711864]
Balconyは深度に基づく動的推論のためのフレームワークである。
完全なモデルの性能を維持しつつ、異なる計算予算へのリアルタイム適応を可能にしている。
注目すべきことに、BalconyはFlextronやLayerskipのような最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-03-06T22:09:55Z) - DATA: Decomposed Attention-based Task Adaptation for Rehearsal-Free Continual Learning [22.386864304549285]
大規模言語モデル(LLM)では、継続的な学習(CL)が現実の要求に適応するために不可欠である。
近年のリハーサルフリー手法では、モデルベースおよび正規化ベースの戦略を用いてこの問題に対処している。
我々は、$textbfD$e $textbfA$ttention-based $textbfTask $textbfA$daptation ( data)を提案する。
データは、ハイランクなタスクアダプタとローランクなタスクアダプタを使用して、タスク固有の知識とタスク共有の知識を明示的に分離し、学習する。
論文 参考訳(メタデータ) (2025-02-17T06:35:42Z) - Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
様々な大きさのLLaMA構造化モデルの実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
我々のモデルは、FP32から低メモリ環境に移行する際の性能劣化を最小限に抑えながら、精度のスケーリングとメモリ削減に頑健なままです。
論文 参考訳(メタデータ) (2024-12-06T05:41:11Z) - Budgeted Online Continual Learning by Adaptive Layer Freezing and Frequency-based Sampling [19.447914903112366]
本稿では,演算およびメモリ予算の指標として,Byteにおける浮動小数点演算と総メモリサイズを提案する。
CL法を限定的な全予算で改善するために,より少ない情報バッチのために層を更新しない適応層凍結を提案する。
さらに,より少ないイテレーションでランダム検索を使用することで,モデルが同じ量の知識を学習できるメモリ検索手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T16:00:00Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。
この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。
広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文 参考訳(メタデータ) (2024-04-19T10:10:39Z) - Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。