論文の概要: Post-Training Probability Manifold Correction via Structured SVD Pruning and Self-Referential Distillation
- arxiv url: http://arxiv.org/abs/2602.00372v1
- Date: Fri, 30 Jan 2026 22:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.141874
- Title: Post-Training Probability Manifold Correction via Structured SVD Pruning and Self-Referential Distillation
- Title(参考訳): 構造化SVDプルーニングと自己参照蒸留による訓練後確率下顎矯正
- Authors: Aaron R. Flouro, Shawn P. Chadwick,
- Abstract要約: Sparse Knowledge Distillation (SparseKD) は、構造化SVDプルーニングと自己参照知識蒸留を組み合わせることでトランスフォーマーモデルを圧縮する手法である。
SparseKDは、外部のスーパー教師、アーキテクチャの変更、カスタム推論カーネルを必要としないため、既存のインフラで即座にデプロイできる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are expensive to deploy. We introduce Sparse Knowledge Distillation (SparseKD), a post-training method that compresses transformer models by combining structured SVD pruning with self-referential knowledge distillation. The key insight is simple: instead of using an external teacher, the model teaches itself by matching its own probability distribution from before compression. This self-referential setup enables surprisingly strong quality recovery after aggressive pruning. Our experiments reveal an unexpected finding: self-referential distillation alone, applied post-training under an identical objective and fixed calibration dataset, improves model quality by 39% relative to the original converged checkpoint. When combined with structured pruning, SparseKD achieves 15-65% parameter reduction with acceptable quality trade-offs. Kernel profiling shows that speedups arise entirely from reduced dense matrix multiplication in feed-forward layers while attention remains unchanged, making this approach complementary to attention optimizations. We validate across two model families (0.6B and 3.8B parameters) with multi-seed experiments confirming high reproducibility. SparseKD requires no external super-teacher, no architectural changes, and no custom inference kernels, making it immediately deployable with existing infrastructure.
- Abstract(参考訳): 大規模言語モデルはデプロイに費用がかかる。
Sparse Knowledge Distillation (SparseKD) は、構造化SVDプルーニングと自己参照知識蒸留を組み合わせることでトランスフォーマーモデルを圧縮するポストトレーニング手法である。
重要な洞察は単純である: 外部教師を使う代わりに、モデルは、圧縮前の確率分布を一致させることで、自身に教える。
この自己参照セットアップは、アグレッシブプルーニング後の驚くほど強い品質回復を可能にする。
実験の結果, 自己参照蒸留だけでは, 同一目的および固定校正データセットの下での訓練後, モデル品質を元の収束チェックポイントと比較して39%向上することがわかった。
構造化プルーニングと組み合わせると、SparseKDは許容品質トレードオフで15~65%のパラメータ還元を達成する。
カーネル・プロファイリング(英語版)は、注意が変わらず、フィードフォワード層における密度行列の乗算が減少し、このアプローチが注意最適化に相補することを示している。
再現性が高い2つのモデル群(0.6Bと3.8Bパラメータ)を多種実験で検証した。
SparseKDは、外部のスーパー教師、アーキテクチャの変更、カスタム推論カーネルを必要としないため、既存のインフラで即座にデプロイできる。
関連論文リスト
- ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Adaptive Gradient Clipping for Robust Federated Learning [8.268485501864939]
本稿では,適応型クリッピング戦略である適応ロバストクリッピング(ARC)を提案し,入力勾配に基づいて動的にクリッピング閾値を調整する。
ARCは、特に高度に異質で対向的な設定において、ロバスト性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-23T11:00:31Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learnable Distribution Calibration for Few-Shot Class-Incremental
Learning [122.2241120474278]
FSCIL(Few-shot class-incremental Learning)は、古いクラス分布を記憶し、少数のトレーニングサンプルから新しいクラス分布を推定するという課題に直面している。
本稿では,これら2つの課題を統一フレームワークを用いて体系的に解決することを目的とした,学習可能な分布校正手法を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:40:26Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Re-parameterizing VAEs for stability [1.90365714903665]
本稿では,変分オートエンコーダ(VAE)の数値安定性を訓練するための理論的アプローチを提案する。
我々の研究は、VAEが複雑な画像データセット上のアート生成結果に到達できるようにするための最近の研究によって動機づけられている。
我々は、それらが依存する正規分布のパラメータ化方法に小さな変更を加えることで、VAEを安全にトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-06-25T16:19:09Z) - Even your Teacher Needs Guidance: Ground-Truth Targets Dampen
Regularization Imposed by Self-Distillation [0.0]
ネットワークアーキテクチャが同一である自己蒸留は、一般化精度を向上させるために観測されている。
我々は, 逐次ステップがモデル出力と接地目標の両方を組み込む, カーネル回帰設定における自己蒸留の反復的変種を考える。
自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。
論文 参考訳(メタデータ) (2021-02-25T18:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。