論文の概要: Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI)
- arxiv url: http://arxiv.org/abs/2510.00475v1
- Date: Wed, 01 Oct 2025 03:52:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.359439
- Title: Diagnosing Shortcut-Induced Rigidity in Continual Learning: The Einstellung Rigidity Index (ERI)
- Title(参考訳): 連続学習におけるショートカットによる剛性診断:Einstellung Rigidity Index (ERI)
- Authors: Kai Gu, Weishi Shi,
- Abstract要約: ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
連続学習(CL)では、ショートカットによる搾取の結果が持続し、強化される。
CLでは、ショートカットによって引き起こされる剛性は、新規なものの獲得を阻害する。
- 参考スコア(独自算出の注目度): 7.587193411022608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks frequently exploit shortcut features, defined as incidental correlations between inputs and labels without causal meaning. Shortcut features undermine robustness and reduce reliability under distribution shifts. In continual learning (CL), the consequences of shortcut exploitation can persist and intensify: weights inherited from earlier tasks bias representation reuse toward whatever features most easily satisfied prior labels, mirroring the cognitive Einstellung effect, a phenomenon where past habits block optimal solutions. Whereas catastrophic forgetting erodes past skills, shortcut-induced rigidity throttles the acquisition of new ones. We introduce the Einstellung Rigidity Index (ERI), a compact diagnostic that disentangles genuine transfer from cue-inflated performance using three interpretable facets: (i) Adaptation Delay (AD), (ii) Performance Deficit (PD), and (iii) Relative Suboptimal Feature Reliance (SFR_rel). On a two-phase CIFAR-100 CL benchmark with a deliberately spurious magenta patch in Phase 2, we evaluate Naive fine-tuning (SGD), online Elastic Weight Consolidation (EWC_on), Dark Experience Replay (DER++), Gradient Projection Memory (GPM), and Deep Generative Replay (DGR). Across these continual learning methods, we observe that CL methods reach accuracy thresholds earlier than a Scratch-T2 baseline (negative AD) but achieve slightly lower final accuracy on patched shortcut classes (positive PD). Masking the patch improves accuracy for CL methods while slightly reducing Scratch-T2, yielding negative SFR_rel. This pattern indicates the patch acted as a distractor for CL models in this setting rather than a helpful shortcut.
- Abstract(参考訳): ディープニューラルネットワークは、インプットとラベルの因果的意味のないインシデント相関として定義されるショートカット機能を利用することが多い。
ショートカット機能は、分散シフト時の堅牢性を損なうとともに、信頼性を低下させる。
継続学習(CL)では、ショートカットによる搾取の結果が持続し、強化されうる: 以前のタスクから受け継がれた重みは、最も容易に満たされるあらゆる特徴に対する偏見表現の再利用であり、過去の習慣が最適解をブロックする現象である認知的アインシュタイン効果を反映している。
過去の侵食を忘れる破滅的な破壊とは対照的に、ショートカットによって引き起こされる剛性は、新しいものを取得するのを妨げている。
Einstellung Rigidity Index (ERI) は,3つの解釈可能なファセットを用いて,cue-inflatedパフォーマンスから真に転移する,コンパクトな診断指標である。
一 適応遅延(AD)
(ii)パフォーマンス欠陥(PD)、及び
(iii)相対的準最適特徴信頼性(SFR_rel)
The two-phase CIFAR-100 CL benchmark with a intentionly spurious magenta patch in Phase 2 we evaluate Naive fine-tuning (SGD), online Elastic Weight Consolidation (EWC_on), Dark Experience Replay (DER++), Gradient Projection Memory (GPM), Deep Generative Replay (DGR)。
これらの連続学習法全体で、CL法はScratch-T2ベースライン(負のAD)よりも早く精度の閾値に達するが、パッチされたショートカットクラス(正のPD)では最終精度はわずかに低い。
パッチをマスキングすることでCL法の精度が向上し、Scratch-T2はわずかに小さくなり、負のSFR_relが得られる。
このパターンは、パッチが有用なショートカットではなく、この設定でCLモデルのイントラクタとして機能していることを示している。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Beyond Sharpness: A Flatness Decomposition Framework for Efficient Continual Learning [27.583428955764774]
連続学習は、モデルが過去の知識を忘れずに連続的に複数のタスクを学習できるようにすることを目的としている。
継続学習のための既存のシャープネス対応手法には2つの重要な制限がある。
本稿では、摂動をシャープネス整合成分と勾配雑音成分に分解する新しい最適化フレームワークFLADを提案する。
論文 参考訳(メタデータ) (2026-01-12T15:17:04Z) - Randomized Neural Network with Adaptive Forward Regularization for Online Task-free Class Incremental Learning [16.323995111105884]
本稿では,前向き正則化(-F)を備えたニューラルネットワーク(NN)を提案する。
調整可能な前方正規化(-kF)を用いたアンサンブル深部乱数ベクトル関数型リンクネットワーク(edRVFL)のアルゴリズムを導出する。
EDRVFL-kFは、1パスのクローズドフォームのインクリメンタルアップデートと可変学習率を生成し、過去のリプレイや破滅的な忘れを効果的に回避する。
プラグアンドプレイのedRVFL-kF-Bayesに改良を加え、複数のサブラーナーのすべてのハードkを自己適応的に決定できるようにする。
論文 参考訳(メタデータ) (2025-10-24T11:50:13Z) - STABLE: Gated Continual Learning for Large Language Models [0.0]
STABLEは、シーケンシャルな更新時に忘れることを制限する、ゲート付き連続的なセルフ編集フレームワークである。
各候補編集は3つの指標のうちの1つを用いて安定性の予算に対して評価される。
Qwen-2.5-7Bモデルの実験では、ゲーティングは適応性を保ちながら忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-10-17T16:14:05Z) - Forward-Only Continual Learning [8.873948519614244]
破滅的な忘れ物は、継続的な学習における中心的な課題である。
本稿では,フォロ(FoRo)を提案する。
実験により、FoRoは平均的な忘れを著しく減らし、精度を向上することが示された。
論文 参考訳(メタデータ) (2025-09-01T15:10:38Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Self-Supervised Contrastive Learning is Approximately Supervised Contrastive Learning [48.11265601808718]
標準的な自己指導型コントラスト学習目標が暗黙的に教師付き変種を近似することを示し,我々は負のみ教師付きコントラスト学習損失(NSCL)と呼ぶ。
ラベルに依存しない,アーキテクチャに依存しない境界の下で,意味クラスの数が増えるにつれて,CLとNSCLの損失のギャップが消滅することを証明する。
論文 参考訳(メタデータ) (2025-06-04T19:43:36Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - Improving Dictionary Learning with Gated Sparse Autoencoders [8.3037652157611]
Gated Sparse Autoencoder (Gated SAE)は、言語モデル(LM)アクティベーションにおける解釈可能な特徴を教師なしで発見する技術である。
SAEでは、スパーシリティを促進するために使われるL1ペナルティは、収縮のような望ましくないバイアスを多く導入する。
最大7BパラメータのLM上でSAEを訓練する際には、Gated SAEは収縮を解消し、同等の再現性を達成するのに半分の燃焼特性を必要とする。
論文 参考訳(メタデータ) (2024-04-24T17:47:22Z) - Soft ascent-descent as a stable and flexible alternative to flooding [6.527016551650139]
我々は,軟化・ポイントワイド機構であるSoftADを提案する。この機構は,降水量と降水量の影響を制限し,洪水の上昇・昇華効果を維持できる。
我々は,より小さな損失一般化ギャップとモデル規範を享受しながら,浸水と競合する分類精度をSoftADが実現できることを実証する。
論文 参考訳(メタデータ) (2023-10-16T02:02:56Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。