論文の概要: Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation
- arxiv url: http://arxiv.org/abs/2502.07274v3
- Date: Tue, 20 May 2025 20:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:57.513341
- Title: Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation
- Title(参考訳): メモリはボツネックではない - 軽量空間統合によるコスト効率のよい継続的学習
- Authors: Dongkyu Cho, Taesup Moon, Rumi Chunara, Kyunghyun Cho, Sungmin Cha,
- Abstract要約: 連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。
本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。
この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
- 参考スコア(独自算出の注目度): 55.77835198580209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual learning (CL) has traditionally emphasized minimizing exemplar memory usage, assuming that memory is the primary bottleneck. However, in modern computing environments-particularly those involving large foundation models-memory is inexpensive and abundant, while GPU time constitutes the main cost. This paper re-examines CL under a more realistic setting with sufficient exemplar memory, where the system can retain a representative portion of past data. We find that, under this regime, stability improves due to reduced forgetting, but plasticity diminishes as the model becomes biased toward prior tasks and struggles to adapt to new ones. Notably, even simple baselines like naive replay can match or exceed the performance of state-of-the-art methods at a fraction of the computational cost. Building on this insight, we propose a lightweight yet effective method called Weight Space Consolidation, which directly operates in the model's weight space via two core mechanisms: (1) rank-based parameter resets to recover plasticity, and (2) weight averaging to enhance stability. Our approach outperforms strong baselines across class-incremental learning with image classifiers and continual instruction tuning with large language models, while requiring only one-third to one-fourth of the training cost. These findings challenge long-standing CL assumptions and establish a new, cost-efficient baseline for real-world continual learning systems where exemplar memory is no longer the limiting factor.
- Abstract(参考訳): 連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。
しかし、現代のコンピューティング環境では、特に大きな基礎モデル-メモリを含むものは安価で豊富なものであり、GPU時間が主なコストである。
本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。
この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
特に、単純ベースラインであるナイーブ・リプレイでさえ、計算コストのごく一部で最先端の手法のパフォーマンスに適合または超過することができる。
この知見に基づいて,(1) 可塑性回復のためのランクベースパラメータリセット,(2) 安定性向上のための重量平均化という,モデルの重量空間内で直接動作する軽量で効果的な方法を提案する。
提案手法は,学習コストの3~4分の1しか必要とせず,画像分類器と大規模言語モデルによる連続的な指導訓練により,クラスインクリメンタル学習において高いベースラインを達成できる。
これらの知見は、長年のCL仮定に挑戦し、模範記憶がもはや制限要因ではない実世界の連続学習システムのための、新しいコスト効率のベースラインを確立する。
関連論文リスト
- An Efficient Training Algorithm for Models with Block-wise Sparsity [6.882042556551613]
本稿では,学習と推論において,計算コストとメモリコストの両方を削減できる効率的なトレーニングアルゴリズムを提案する。
我々のアルゴリズムは、ベースラインに比べて性能低下を伴わずに計算とメモリコストを大幅に削減できる。
論文 参考訳(メタデータ) (2025-03-27T19:14:27Z) - Budgeted Online Continual Learning by Adaptive Layer Freezing and Frequency-based Sampling [19.447914903112366]
本稿では,演算およびメモリ予算の指標として,Byteにおける浮動小数点演算と総メモリサイズを提案する。
CL法を限定的な全予算で改善するために,より少ない情報バッチのために層を更新しない適応層凍結を提案する。
さらに,より少ないイテレーションでランダム検索を使用することで,モデルが同じ量の知識を学習できるメモリ検索手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T16:00:00Z) - Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation [123.4883806344334]
本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習環境について検討する。
この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。
広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。
論文 参考訳(メタデータ) (2024-04-19T10:10:39Z) - An Efficient Rehearsal Scheme for Catastrophic Forgetting Mitigation during Multi-stage Fine-tuning [55.467047686093025]
このような忘れを緩和するための一般的なアプローチは、微調整中に以前のタスクからサンプルをリハーサルすることである。
側方損傷のリハーサルを優先するサンプリング手法である textttbf mix-cd を提案する。
我々の手法は計算効率が高く、実装が容易で、計算制約のある設定においていくつかの主要な連続学習手法より優れています。
論文 参考訳(メタデータ) (2024-02-12T22:32:12Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Semantically Constrained Memory Allocation (SCMA) for Embedding in
Efficient Recommendation Systems [27.419109620575313]
ディープラーニングモデルの重要な課題は、数百万のカテゴリクラスやトークンを扱うことだ。
本稿では,記憶の共有を意味情報の重なりに比例して共有する,新しいメモリ共有埋め込み方式を提案する。
性能を維持しながらメモリフットプリントの大幅な削減を示す。
論文 参考訳(メタデータ) (2021-02-24T19:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。