論文の概要: Demystifying Low-Rank Knowledge Distillation in Large Language Models: Convergence, Generalization, and Information-Theoretic Guarantees
- arxiv url: http://arxiv.org/abs/2603.22355v1
- Date: Sun, 22 Mar 2026 14:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.093305
- Title: Demystifying Low-Rank Knowledge Distillation in Large Language Models: Convergence, Generalization, and Information-Theoretic Guarantees
- Title(参考訳): 大規模言語モデルにおける低ランク知識蒸留のデミスティフィケーション:収束、一般化、情報理論的保証
- Authors: Alberlucia Rafael Soarez, Daniel Kim, Mariana Costa, Alejandro Torre,
- Abstract要約: 言語モデルにおける低ランク知識蒸留のための厳密な理論的枠組みを確立する。
モデル圧縮と一般化能力の基本的なトレードオフを特徴付ける一般化境界を導出する。
この結果から,n が標本サイズである場合の最適な階数 $r* = O(sqrtn)$ を数学的に提案する。
- 参考スコア(独自算出の注目度): 39.46018322554442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has emerged as a powerful technique for compressing large language models (LLMs) into efficient, deployable architectures while preserving their advanced capabilities. Recent advances in low-rank knowledge distillation, particularly methods like Low-Rank Clone (LRC), have demonstrated remarkable empirical success, achieving comparable performance to full-parameter distillation with significantly reduced training data and computational overhead. However, the theoretical foundations underlying these methods remain poorly understood. In this paper, we establish a rigorous theoretical framework for low-rank knowledge distillation in language models. We prove that under mild assumptions, low-rank projection preserves the optimization dynamics, yielding explicit convergence rates of $O(1/\sqrt{T})$. We derive generalization bounds that characterize the fundamental trade-off between model compression and generalization capability, showing that the generalization error scales with the rank parameter as $O(r(m+n)/\sqrt{n})$. Furthermore, we provide an information-theoretic analysis of the activation cloning mechanism, revealing its role in maximizing the mutual information between the teacher's and student's intermediate representations. Our theoretical results offer principled guidelines for rank selection, mathematically suggesting an optimal rank $r^* = O(\sqrt{n})$ where $n$ is the sample size. Experimental validation on standard language modeling benchmarks confirms our theoretical predictions, demonstrating that the empirical convergence, rank scaling, and generalization behaviors align closely with our bounds.
- Abstract(参考訳): 知識蒸留は、大規模言語モデル(LLM)を効率よくデプロイ可能なアーキテクチャに圧縮し、その高度な能力を保ちながら、強力な技術として登場した。
ローランクな知識蒸留の最近の進歩、特にローランドクローン(LRC)のような手法は、訓練データと計算オーバーヘッドを大幅に削減したフルパラメータ蒸留に匹敵する性能を達成し、目覚ましい成功を収めている。
しかし、これらの手法の理論的基礎はいまだに理解されていない。
本稿では,言語モデルにおける低ランク知識蒸留のための厳密な理論的枠組みを確立する。
軽微な仮定の下では、低ランク射影は最適化力学を保ち、$O(1/\sqrt{T})$の明確な収束率が得られることを証明している。
モデル圧縮と一般化能力の基本的なトレードオフを特徴付ける一般化境界を導出し、一般化誤差は階数パラメータで$O(r(m+n)/\sqrt{n})$とスケールすることを示す。
さらに,教師と学生の中間表現の相互情報の最大化に果たす役割を明らかにする。
我々の理論結果はランク選択の原則的ガイドラインを提供し、数学的に最適な階数 $r^* = O(\sqrt{n})$, $n$ をサンプルサイズとして提案する。
標準言語モデリングベンチマークの実験的検証により、実験的な収束、ランクスケーリング、一般化の挙動が我々の限界と密接に一致していることが証明された。
関連論文リスト
- Why Self-Rewarding Works: Theoretical Guarantees for Iterative Alignment of Language Models [50.248686344277246]
自己回帰言語モデル(SRLM)は、外部からのフィードバックなしに反復的にアライメントを改善することに成功している。
本稿では,SRLMの厳密な理論的保証について述べる。
論文 参考訳(メタデータ) (2026-01-30T03:45:43Z) - Mixture-of-Experts Models in Vision: Routing, Optimization, and Generalization [0.0]
画像分類設定におけるMoEの挙動について検討し、予測性能、専門家の活用、一般化に着目した。
我々は、CIFAR10データセット上の密度、SoftMoE、SparseMoE分類器を、同等のモデルキャパシティで比較する。
どちらのMoE変種も、正規化によるバランスの取れた専門家の利用を維持しながら、密度の高いベースラインよりもわずかに高い検証精度を達成する。
DenseとSparseMoEは、全てのモデルが同等の一般化性能を達成しているにもかかわらず、同様の曲率状態にあるのに対して、SoftMoEはこれらの指標によってよりシャープさを示す。
論文 参考訳(メタデータ) (2026-01-21T14:22:25Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - A Preliminary Study on the Promises and Challenges of Native Top-$k$ Sparse Attention [33.03212783462742]
本報告では,Top-k$アテンション機構の有効性と理論的メカニズムについて予備検討する。
実験によると、Top-k$ Decodingはダウンストリームタスクに匹敵する、あるいは超えるパフォーマンスを実現している。
正確なTop-k$Atentionの計算複雑性を考慮すると、Top-k$アルゴリズムの精度が下流タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2025-12-03T06:44:02Z) - Brewing Knowledge in Context: Distillation Perspectives on In-Context Learning [2.6129523822281415]
In-context Learning (ICL) は、大きな言語モデルでウェイトアップなしで新しいタスクを解くことができる。
実証的な成功にもかかわらず、ICLのメカニズムはいまだに理解されていない。
本稿では,ICLを知識蒸留の暗黙の形式として解釈する新たな理論的視点を提案する。
論文 参考訳(メタデータ) (2025-06-13T07:17:41Z) - Generalization in VAE and Diffusion Models: A Unified Information-Theoretic Analysis [20.429383584319815]
本稿では,エンコーダとジェネレータの両方の一般化を保証する統一理論フレームワークを提案する。
合成データと実データの両方に対する実験結果から,提案理論の有効性が示唆された。
論文 参考訳(メタデータ) (2025-06-01T06:11:38Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。