論文の概要: Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2603.07415v1
- Date: Sun, 08 Mar 2026 02:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.496217
- Title: Context Channel Capacity: An Information-Theoretic Framework for Understanding Catastrophic Forgetting
- Title(参考訳): コンテキストチャネル容量: 破滅的フォーッティングを理解するための情報理論フレームワーク
- Authors: Ran Cheng,
- Abstract要約: ゼロ左折は$C_mathrmctx geq H(T)$であり、$H(T)$はタスク恒等エントロピーである。
Split-MNIST(86日で1,130以上,4種)の8 CL法でこの枠組みを検証したところ,C_mathrmctx$は忘れる行動を完全に予測できることがわかった。
- 参考スコア(独自算出の注目度): 8.66871075467032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Catastrophic forgetting remains a central challenge in continual learning (CL), yet lacks a unified information-theoretic explanation for why some architectures forget catastrophically while others do not. We introduce \emph{Context Channel Capacity} ($C_\mathrm{ctx}$), the mutual information between a CL architecture's context signal and its generated parameters, and prove that zero forgetting requires $C_\mathrm{ctx} \geq H(T)$, where $H(T)$ is the task identity entropy. We establish an \emph{Impossibility Triangle} -- zero forgetting, online learning, and finite parameters cannot be simultaneously satisfied by sequential state-based learners -- and show that conditional regeneration architectures (HyperNetworks) bypass this triangle by redefining parameters as function values rather than states. We validate this framework across 8 CL methods on Split-MNIST (1,130+ experiments over 86 days, 4 seeds each), showing that $C_\mathrm{ctx}$ perfectly predicts forgetting behavior: methods with $C_\mathrm{ctx} = 0$ (NaiveSGD, EWC, SI, LwF, CFlow) exhibit catastrophic forgetting (6--97\%), while methods with $C_\mathrm{ctx} \approx 1$ (HyperNetwork) achieve zero forgetting (98.8\% ACC). We further propose \emph{Wrong-Context Probing} (P5), a practical diagnostic protocol for measuring $C_\mathrm{ctx}$, and extend the framework to CIFAR-10 via a novel \emph{Gradient Context Encoder} that closes the oracle gap from 23.3pp to 0.7pp. A systematic taxonomy of 15+ closed research directions -- including the Hebbian null result (frozen random features outperform learned features), CFlow's $θ_0$-memorizer phenomenon, and the $S_N$ symmetry barrier to column specialization -- provides the community with precisely diagnosed negative results. Our central design principle: \emph{architecture over algorithm} -- the context pathway must be structurally unbypassable.
- Abstract(参考訳): 破滅的な忘れは、継続学習(CL)における中心的な課題であり続けているが、なぜ破滅的に忘れたのか、他のアーキテクチャが忘れていないのかについての統一的な情報理論的な説明が欠けている。
CLアーキテクチャのコンテキスト信号とその生成パラメータ間の相互情報である「emph{Context Channel Capacity}」(C_\mathrm{ctx}$)を導入し、ゼロを忘れるには$C_\mathrm{ctx} \geq H(T)$が必要であることを証明した。
我々は,「emph{Impossibility Triangle} -- ゼロ忘れ,オンライン学習,有限パラメータを逐次状態ベース学習者によって同時に満たすことはできない -- を確立し,パラメータを状態ではなく関数値として再定義することで,条件付き再生アーキテクチャ(HyperNetworks)をバイパスすることを示す。
C_\mathrm{ctx}= 0$ (NaiveSGD, EWC, SI, LwF, CFlow) のメソッドは破滅的な忘れ込み(6-97 %)を示し、$C_\mathrm{ctx} \approx 1$ (HyperNetwork) のメソッドはゼロの忘れ込み(98.8 % ACC)を達成する。
さらに、$C_\mathrm{ctx}$を測定するための実用的な診断プロトコルである \emph{Wrong-Context Probing} (P5) を提案し、そのフレームワークを23.3ppから0.7ppまでのオラクルギャップを閉じる新しい \emph{Gradient Context Encoder} を通じて CIFAR-10 に拡張する。
CFlowの$θ_0$-memorizer 現象、カラム特殊化に対する$S_N$対称性の障壁などを含む15以上のクローズドな研究方向の体系的な分類は、コミュニティに正確に認識されたネガティブな結果を提供する。我々の中心的な設計原則である \emph{architecture over algorithm} は、コンテキストパスを構造的にバイパスできなければならない。
関連論文リスト
- Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement [0.0]
本稿では,合成信号を線形に投影し,リッジプローブへの幾何的情報アクセス量を測定する合成プローブ分解(CPD)について紹介する。
モデルは、合成除去後にアクセス可能な幾何学的情報で6.6倍の差がある。
また, 非線形プローブは, 残留化表現に対して誤った導出結果をもたらし, 純合成対象に対して$R2 = 0.68$--0.95$を回収し, この設定に対して線形プローブを推奨することを示した。
論文 参考訳(メタデータ) (2026-03-03T16:52:06Z) - Non-Trivial Zero-Knowledge Implies One-Way Functions [7.5752750293638735]
我々は, ゼロ知識エムの最悪の複雑性から, ワンウェイ関数のキャラクタリゼーションを得る。
以上の結果から,最悪の場合の硬さから一方通行の機能を構築できる可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-19T18:56:24Z) - Unconditionally separating noisy $\mathsf{QNC}^0$ from bounded polynomial threshold circuits of constant depth [6.8680041558282054]
並列量子計算は,従来よりも計算能力が高いことを示す。
我々は、新しい量子コンピュータに計算上の優位性を持たせて、より高次元の非局所ゲーム理論を橋渡しする。
論文 参考訳(メタデータ) (2024-08-29T09:40:55Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - On Understanding Attention-Based In-Context Learning for Categorical Data [49.40350941996942]
我々は,アテンションブロックで構成されるネットワークを開発し,各ブロックに自己注意層を付加し,その後にクロスアテンション層と関連するスキップ接続を付加する。
このモデルは、カテゴリー的観察を伴う文脈内推論のための多段階機能的GD推論を正確に行うことができる。
論文 参考訳(メタデータ) (2024-05-27T15:03:21Z) - Learned Nonlinear Predictor for Critically Sampled 3D Point Cloud
Attribute Compression [24.001318485207207]
我々はデコーダによる3次元点雲圧縮について検討した。
本稿では,$f_l*$をレベル$l+1$,$f_l*$$l$,$G_l*$のエンコーディングを$p=1$で予測する。
論文 参考訳(メタデータ) (2023-11-22T17:26:54Z) - Corruption-Robust Offline Reinforcement Learning with General Function
Approximation [60.91257031278004]
一般関数近似を用いたオフライン強化学習(RL)における劣化問題について検討する。
我々のゴールは、崩壊しないマルコフ決定プロセス(MDP)の最適方針に関して、このような腐敗に対して堅牢で、最適でないギャップを最小限に抑える政策を見つけることである。
論文 参考訳(メタデータ) (2023-10-23T04:07:26Z) - Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。
低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文 参考訳(メタデータ) (2023-02-13T22:51:07Z) - Evaluated CMI Bounds for Meta Learning: Tightness and Expressiveness [14.147617330278662]
評価CMI(e-CMI)を用いたメタ学習のための新しい一般化境界を提案する。
e-CMI フレームワークは、$sqrt の数学カル C(mathcal H)/(nhat n) + 数学カル C(mathcal F)/n $, ここで $mathcal C(cdot)$ は仮説クラスの複雑性測度を表す。
論文 参考訳(メタデータ) (2022-10-12T18:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。