論文の概要: Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI)
- arxiv url: http://arxiv.org/abs/2510.00475v1
- Date: Wed, 01 Oct 2025 03:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.359439
- Title: Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI)
- Title(参考訳): 連続学習におけるショートカットによる剛性診断:Einstellung Rigidity Index (ERI)
- Authors: Kai Gu, Weishi Shi,
- Abstract要約: ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
連続学習(CL)では、ショートカットによる搾取の結果が持続し、強化される。
CLでは、ショートカットによって引き起こされる剛性は、新規なものの獲得を阻害する。
- 参考スコア(独自算出の注目度): 7.587193411022608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks frequently exploit shortcut features, defined as incidental correlations between inputs and labels without causal meaning. Shortcut features undermine robustness and reduce reliability under distribution shifts. In continual learning (CL), the consequences of shortcut exploitation can persist and intensify: weights inherited from earlier tasks bias representation reuse toward whatever features most easily satisfied prior labels, mirroring the cognitive Einstellung effect, a phenomenon where past habits block optimal solutions. Whereas catastrophic forgetting erodes past skills, shortcut-induced rigidity throttles the acquisition of new ones. We introduce the Einstellung Rigidity Index (ERI), a compact diagnostic that disentangles genuine transfer from cue-inflated performance using three interpretable facets: (i) Adaptation Delay (AD), (ii) Performance Deficit (PD), and (iii) Relative Suboptimal Feature Reliance (SFR_rel). On a two-phase CIFAR-100 CL benchmark with a deliberately spurious magenta patch in Phase 2, we evaluate Naive fine-tuning (SGD), online Elastic Weight Consolidation (EWC_on), Dark Experience Replay (DER++), Gradient Projection Memory (GPM), and Deep Generative Replay (DGR). Across these continual learning methods, we observe that CL methods reach accuracy thresholds earlier than a Scratch-T2 baseline (negative AD) but achieve slightly lower final accuracy on patched shortcut classes (positive PD). Masking the patch improves accuracy for CL methods while slightly reducing Scratch-T2, yielding negative SFR_rel. This pattern indicates the patch acted as a distractor for CL models in this setting rather than a helpful shortcut.
- Abstract(参考訳): ディープニューラルネットワークは、インプットとラベルの因果的意味のないインシデント相関として定義されるショートカット機能を利用することが多い。
ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
継続学習(CL)では、ショートカットによる搾取の結果が持続し、強化されうる: 以前のタスクから受け継がれた重みは、最も容易に満たされるあらゆる特徴に対する偏見表現の再利用であり、過去の習慣が最適解をブロックする現象である認知的アインシュタイン効果を反映している。
過去の侵食を忘れる破滅的な破壊とは対照的に、ショートカットによって引き起こされる剛性は、新しいものを取得するのを妨げている。
Einstellung Rigidity Index (ERI) は,3つの解釈可能なファセットを用いて,cue-inflatedパフォーマンスから真に転移する,コンパクトな診断指標である。
一 適応遅延(AD)
(ii)パフォーマンス欠陥(PD)、及び
(iii)相対的準最適特徴信頼性(SFR_rel)
The two-phase CIFAR-100 CL benchmark with a intentionly spurious magenta patch in Phase 2 we evaluate Naive fine-tuning (SGD), online Elastic Weight Consolidation (EWC_on), Dark Experience Replay (DER++), Gradient Projection Memory (GPM), Deep Generative Replay (DGR)。
これらの連続学習法全体で、CL法はScratch-T2ベースライン(負のAD)よりも早く精度の閾値に達するが、パッチされたショートカットクラス(正のPD)では最終精度はわずかに低い。
パッチをマスキングすることでCL法の精度が向上し、Scratch-T2はわずかに小さくなり、負のSFR_relが得られる。
このパターンは、パッチが有用なショートカットではなく、この設定でCLモデルのイントラクタとして機能していることを示している。
関連論文リスト
- Forward-Only Continual Learning [8.873948519614244]
破滅的な忘れ物は、継続的な学習における中心的な課題である。
本稿では,フォロ(FoRo)を提案する。
実験により、FoRoは平均的な忘れを著しく減らし、精度を向上することが示された。
論文 参考訳(メタデータ) (2025-09-01T15:10:38Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning [48.11265601808718]
標準的な自己指導型コントラスト学習目標が暗黙的に教師付き変種を近似することを示し,我々は負のみ教師付きコントラスト学習損失(NSCL)と呼ぶ。
ラベルに依存しない,アーキテクチャに依存しない境界の下で,意味クラスの数が増えるにつれて,CLとNSCLの損失のギャップが消滅することを証明する。
論文 参考訳(メタデータ) (2025-06-04T19:43:36Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。