論文の概要: Geometric Limits of Knowledge Distillation: A Minimum-Width Theorem via Superposition Theory
- arxiv url: http://arxiv.org/abs/2604.04037v1
- Date: Sun, 05 Apr 2026 09:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.886144
- Title: Geometric Limits of Knowledge Distillation: A Minimum-Width Theorem via Superposition Theory
- Title(参考訳): 知識蒸留の幾何学的限界:重ね合わせ理論による最小幅理論
- Authors: Dawar Jyoti Deka, Nilesh Sarkar,
- Abstract要約: 知識蒸留は、大規模な教師を小さな学生に圧縮するが、訓練方法や目的を越えて継続する損失フロアでパフォーマンスが飽和する。
このフロアは幾何学的であり、ニューラルネットワークは重ね合わせによって次元よりもはるかに多くの特徴を表現している。
本研究は, 蒸留限界に表現幾何学を結合させ, SAE測定だけで蒸留性能を予測するための実用的なツールを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation compresses large teachers into smaller students, but performance saturates at a loss floor that persists across training methods and objectives. We argue this floor is geometric: neural networks represent far more features than dimensions through superposition, and a student of width $d_S$ can encode at most $d_S \cdot g(α)$ features, where $g(α) = 1/((1-α)\ln\frac{1}{1-α})$ is a sparsity-dependent capacity function. Features beyond this budget are permanently lost, yielding an importance-weighted loss floor. We validate on a toy model (48 configurations, median accuracy >93%) and on Pythia-410M, where sparse autoencoders measure $F \approx 28{,}700$ features at $α\approx 0.992$ (critical width $d_S^* \approx 1{,}065$). Distillation into five student widths confirms the predicted monotonic floor ordering. The observed floor decomposes into a geometric component and a width-independent architectural baseline ($R^2 = 0.993$). Linear probing shows coarse concepts survive even 88% feature loss, revealing the floor arises from aggregate loss of fine-grained features in the importance distribution's long tail. Our results connect representation geometry to distillation limits and provide a practical tool for predicting distillation performance from SAE measurements alone.
- Abstract(参考訳): 知識蒸留は、大規模な教師を小さな学生に圧縮するが、訓練方法や目的を越えて継続する損失フロアでパフォーマンスが飽和する。
ニューラルネットワークは重ね合わせによって次元よりもはるかに多くの特徴を表現し、幅$d_S$の学生は最大$d_S \cdot g(α)$の機能をエンコードできる。
この予算を超える特徴は恒久的に失われ、重厚な損失の床となる。
おもちゃモデル (48 構成, 中央値精度 >93%) と Pythia-410M 上で, スパースオートエンコーダが$F \approx 28{,}700$ の機能を$α\approx 0.992$ (臨界幅 $d_S^* \approx 1{,}065$) で評価した。
5つの学生の幅に蒸留すると、予測された単調な床の注文が確認される。
観測されたフロアは幾何学的要素と幅非依存のアーキテクチャベースライン(R^2 = 0.993$)に分解される。
線形探索は、粗い概念が88%の特徴損失でも生き残ることを示し、重要分布の長い尾の細かい特徴の集合的損失から床が生じることを示した。
本研究は, 蒸留限界に表現幾何学を結合させ, SAE測定だけで蒸留性能を予測するための実用的なツールを提供する。
関連論文リスト
- Subspace Geometry Governs Catastrophic Forgetting in Low-Rank Adaptation [0.0]
Low-Rank Adaptation (LoRA) は、大規模な事前学習モデルに適応するためのパラメータ効率の高いアプローチとして登場した。
勾配部分空間相互作用のレンズを通して,LoRAにおける破滅的忘れを特徴付ける幾何学的理論を提案する。
論文 参考訳(メタデータ) (2026-02-10T22:45:47Z) - LoRIF: Low-Rank Influence Functions for Scalable Training Data Attribution [62.830878652285406]
トレーニングデータ属性は、モデルの予測に最も影響したトレーニング例を特定する。
LoRIFは、両方のボトルネックに対処するために、勾配の低ランク構造を利用する。
数百万のサンプルでデータセットでトレーニングされた0.1Bから70Bパラメータのモデルで、LoRIFは最大20$timesのストレージ削減とクエリ時の高速化を実現している。
論文 参考訳(メタデータ) (2026-01-29T16:18:34Z) - The Hidden Width of Deep ResNets: Tight Error Bounds and Phase Diagrams [15.246178589173523]
大深度残差ネットワーク(ResNets)の勾配に基づくトレーニングについて検討する。
可変深さ$L$,固定埋め込み寸法$D$,任意の隠れ幅$M$で、トレーニングダイナミクスはニューラル平均ODEトレーニングダイナミクスに収束することを示す。
論文 参考訳(メタデータ) (2025-09-12T11:51:44Z) - Some Theoretical Results on Layerwise Effective Dimension Oscillations in Finite Width ReLU Networks [0.0]
有限幅の完全連結ReLUネットワークにおける層状有効次元(特徴行列のランク)を解析する。
固定された$m$入力とランダムガウスウェイトに対して、$mtimes n$隠れ活性化行列の期待ランクに対する閉形式式を導出する。
論文 参考訳(メタデータ) (2025-07-10T11:54:18Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Optimization and Generalization of Shallow Neural Networks with
Quadratic Activation Functions [11.70706646606773]
本研究では,一層ニューラルネットワークの最適化と一般化特性について検討する。
本研究では,教師が小幅の隠蔽層を持つ学生と同じ構造を持つ教師学生シナリオについて考察する。
同じ条件下では、経験的損失の勾配降下ダイナミクスが収束し、小さな一般化誤差をもたらすことが示される。
論文 参考訳(メタデータ) (2020-06-27T22:13:20Z) - Provably Efficient Reinforcement Learning for Discounted MDPs with
Feature Mapping [99.59319332864129]
本稿では,割引決定(MDP)のための強化学習について検討する。
本稿では,特徴写像を利用した新しいアルゴリズムを提案し,$tilde O(dsqrtT/ (1-gamma)2)$ regretを求める。
以上の結果から,提案した強化学習アルゴリズムは,最大1-γ-0.5$の係数でほぼ最適であることが示唆された。
論文 参考訳(メタデータ) (2020-06-23T17:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。