論文の概要: Elastic Weight Consolidation Done Right for Continual Learning
- arxiv url: http://arxiv.org/abs/2603.18596v2
- Date: Tue, 24 Mar 2026 02:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 12:42:17.568202
- Title: Elastic Weight Consolidation Done Right for Continual Learning
- Title(参考訳): 継続的な学習に適した弾性重み強化
- Authors: Xuan Liu, Xiaobin Chang,
- Abstract要約: EWC(Elastic Weight Consolidation)は、勾配に基づいて重みを推定する。
EWCのFiher Information Matrix (FIM)への依存は、勾配の消失と不正確な重要度推定をもたらす。
本稿では,EWC の重要度推定を補正する簡易かつ効果的な修正である Logits Reversal (LR) 演算を提案する。
- 参考スコア(独自算出の注目度): 12.226768097023475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight regularization methods in continual learning (CL) alleviate catastrophic forgetting by assessing and penalizing changes to important model weights. Elastic Weight Consolidation (EWC) is a foundational and widely used approach within this framework that estimates weight importance based on gradients. However, it has consistently shown suboptimal performance. In this paper, we conduct a systematic analysis of importance estimation in EWC from a gradient-based perspective. For the first time, we find that EWC's reliance on the Fisher Information Matrix (FIM) results in gradient vanishing and inaccurate importance estimation in certain scenarios. Our analysis also reveals that Memory Aware Synapses (MAS), a variant of EWC, imposes unnecessary constraints on parameters irrelevant to prior tasks, termed the redundant protection. Consequently, both EWC and its variants exhibit fundamental misalignments in estimating weight importance, leading to inferior performance. To tackle these issues, we propose the Logits Reversal (LR) operation, a simple yet effective modification that rectifies EWC's importance estimation. Specifically, reversing the logit values during the calculation of FIM can effectively prevent both gradient vanishing and redundant protection. Extensive experiments across various CL tasks and datasets show that the proposed method significantly outperforms existing EWC and its variants. Therefore, we refer to it as EWC Done Right (EWC-DR). Code is available at <https://github.com/scarlet0703/EWC-DR>.
- Abstract(参考訳): 連続学習(CL)における重み規則化手法は,重要なモデル重みに対する変化を評価し,ペナルティ化することにより,破滅的な忘れを緩和する。
EWC(Elastic Weight Consolidation)は、勾配に基づいて重みの重要度を見積もる基本的な手法である。
しかし、常に準最適性能を示している。
本稿では、勾配に基づく視点から、EWCにおける重要度推定の体系的解析を行う。
EWCがFiher Information Matrix (FIM) に依存していることが、特定のシナリオにおいて勾配が消え、重要度が不正確なことを初めて見出した。
EWCの亜種であるメモリ・アウェア・シナプス(MAS)は、従来のタスクとは無関係なパラメータに不必要な制約を課している。
その結果、EWCとその変種は重量の重要度を推定する上で根本的な不一致を示し、性能は低下した。
これらの問題に対処するために、EWCの重要度推定を補正する簡易かつ効果的な修正である、Logits Reversal (LR) 演算を提案する。
具体的には、FIM計算中のロジット値の反転は、勾配の消失と冗長な保護の両方を効果的に防止することができる。
CLタスクやデータセットの広範な実験により、提案手法は既存のEWCとその変種を著しく上回ることを示した。
したがって、これをEWC Done Right(EWC-DR)と呼ぶ。
コードは <https://github.com/scarlet0703/EWC-DR> で公開されている。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - Revisiting Weight Regularization for Low-Rank Continual Learning [42.550292504567935]
大規模事前学習モデル(PTM)を用いた連続学習が近年注目されている。
タスク干渉は通常、低ランクアダプタのようなトレーニング中にタスク固有のモジュールを割り当てることによって緩和される。
EWC(Elastic Weight Consolidation)のような重み正規化技術は、CL-Remainにおける鍵となる戦略である。
論文 参考訳(メタデータ) (2026-02-19T17:13:00Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning [66.8042627609456]
損失再重み付けは、大きな言語モデル(LLM)を用いた機械学習において大きなメリットを示している。
本稿では,損失再重み付け,すなわち飽和と重要度という2つの異なる目標を同定する。
飽和度と重要度の両方の利点を組み合わせた簡易な再重み付け手法であるSatImpを提案する。
論文 参考訳(メタデータ) (2025-05-17T10:41:22Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment [58.030196381554745]
大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
論文 参考訳(メタデータ) (2024-03-16T04:12:50Z) - Off-Policy Evaluation for Large Action Spaces via Conjunct Effect
Modeling [30.835774920236872]
大規模離散行動空間に対する文脈的帯域ポリシーの非政治的評価について検討する。
共役効果モデル (CEM) に基づく新しい推定器であるOffCEMを提案し, 因果効果をクラスター効果に分解し, 残留効果を示す。
実験により、OFCEMは特に多くのアクションが存在する場合、OPEを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-05-14T04:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。