論文の概要: Exploring the Impact of Parameter Update Magnitude on Forgetting and Generalization of Continual Learning
- arxiv url: http://arxiv.org/abs/2602.20796v1
- Date: Tue, 24 Feb 2026 11:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.728381
- Title: Exploring the Impact of Parameter Update Magnitude on Forgetting and Generalization of Continual Learning
- Title(参考訳): パラメータ更新マグニチュードが連続学習の予測と一般化に及ぼす影響を探る
- Authors: JinLi He, Liang Bai, Xian Yang,
- Abstract要約: パラメータ更新の規模は、継続的な学習において重要な要素であると考えられている。
凍結トレーニングと一般化トレーニングという,2つの代表的な更新パラダイムを統合します。
ディープニューラルネットワークの実験は、このハイブリッドアプローチが標準的なトレーニング戦略を上回ることを実証している。
- 参考スコア(独自算出の注目度): 11.882528379148141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The magnitude of parameter updates are considered a key factor in continual learning. However, most existing studies focus on designing diverse update strategies, while a theoretical understanding of the underlying mechanisms remains limited. Therefore, we characterize model's forgetting from the perspective of parameter update magnitude and formalize it as knowledge degradation induced by task-specific drift in the parameter space, which has not been fully captured in previous studies due to their assumption of a unified parameter space. By deriving the optimal parameter update magnitude that minimizes forgetting, we unify two representative update paradigms, frozen training and initialized training, within an optimization framework for constrained parameter updates. Our theoretical results further reveals that sequence tasks with small parameter distances exhibit better generalization and less forgetting under frozen training rather than initialized training. These theoretical insights inspire a novel hybrid parameter update strategy that adaptively adjusts update magnitude based on gradient directions. Experiments on deep neural networks demonstrate that this hybrid approach outperforms standard training strategies, providing new theoretical perspectives and practical inspiration for designing efficient and scalable continual learning algorithms.
- Abstract(参考訳): パラメータ更新の規模は、継続的な学習において重要な要素であると考えられている。
しかしながら、既存の研究は様々な更新戦略の設計に重点を置いているが、基礎となるメカニズムに関する理論的理解は限られている。
そこで本研究では,パラメータ更新量の観点からモデルが忘れていることを,パラメータ空間におけるタスク固有のドリフトによって引き起こされる知識劣化として定式化する。
忘れを最小化する最適なパラメータ更新サイズを導出することにより、制約されたパラメータ更新のための最適化フレームワーク内で、2つの代表的な更新パラダイム、凍結トレーニングと初期化トレーニングを統一する。
さらに, パラメータ距離が小さいシーケンスタスクは, 初期化トレーニングよりも凍結トレーニングにおいて, より一般化され, 忘れられにくいことが示唆された。
これらの理論的な洞察は、勾配方向に基づいて更新サイズを適応的に調整する新しいハイブリッドパラメータ更新戦略を刺激する。
ディープニューラルネットワークの実験は、このハイブリッドアプローチが標準的なトレーニング戦略より優れており、効率的でスケーラブルな継続的学習アルゴリズムを設計するための新しい理論的視点と実践的なインスピレーションを提供することを示している。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for
Training Large Transformer Models [132.90062129639705]
本稿では,全てのパラメータを十分に訓練するための新しいトレーニング戦略を提案する。
感度の低いパラメータは冗長であり、学習率を高めて適合性を改善する。
対照的に、高い感度を持つパラメータを十分に訓練し、学習率を下げて正規化することで、さらなる過度なオーバーフィッティングを防止する。
論文 参考訳(メタデータ) (2022-02-06T00:22:28Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。