論文の概要: Pruning Deep Neural Networks via the Marchenko--Pastur Distribution
- arxiv url: http://arxiv.org/abs/2606.02608v1
- Date: Sat, 23 May 2026 19:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.588497
- Title: Pruning Deep Neural Networks via the Marchenko--Pastur Distribution
- Title(参考訳): 松園湖を経由した深部ニューラルネットワークの運転-パスチュア分布-
- Authors: Leonid Berlyand, Theo Bourdais, Houman Owhad, Yitzchak Shmalo,
- Abstract要約: 提案手法は,超小型の切削後微調整予算を持つ深層ニューラルネットワークにおけるランダム・マトリクス手法である。
主な実用的貢献は、短いキャリブレーションと微調整スケジュールの下での精度維持である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a Marchenko--Pastur (MP) random-matrix approach to pruning deep neural networks with very small post-pruning fine-tuning budgets. The main practical contribution is accuracy retention under short calibration and fine-tuning schedules, rather than a long post-pruning reoptimization pipeline. The theory gives deterministic data-path certificates: if the removed component $R$ has small propagated logit effect $L_s \| R ψ_1(s) \|_\infty$, pruning decreases an elastic-net objective and preserves samples whose dense margin exceeds twice the perturbation. The zero-budget case gives perfect pruning; a prune--restore extension models weight restoration inside a fixed sparse-execution pattern; and an additive $L_2$-regularized model shows admissible random-like components vanish at the training limit, with persistent spikes stabilizing as the MP bulk collapses. Under iid-Gaussian sufficient conditions, the fitted MP edge $σ_+$ gives a high-probability layerwise budget signal. On ImageNet-1k, after only three distillation epochs, ViT-B/16 $2{:}4{+}$ToMe reaches $83.41\%$ top-1 ($-1.70$ pp from dense) at $59.81\%$ sparse-execution MAC reduction, with $1.388\times$ best-observed A40 native-$2{:}4$ backend speedup for the same checkpoint and ToMe graph; a separate no-ToMe A100 endpoint gives $2.705\times$. At structured sparsity, ViT-B/16 $6{:}12$ reaches $83.74\%$, ViT-L/16 $8{:}16$ dense+permutation reaches $85.33\%$ ($-0.51$ pp), and ConvNeXtV2-Base $12{:}16$ reaches $86.35\%$ ($-0.37$ pp). For CNNs, ResNet50 $8{:}16$ dense+permutation reaches $75.87\%$ ($-0.26$ pp), and ResNet152d CAST-conv+permutation reaches $81.33\%$ ($-1.53$ pp) at ${\sim}50\%$ MAC accounting with a $1.62\times$ A40 im2col$+2{:}4$ sparse-GEMM audit.
- Abstract(参考訳): 提案手法は,超小型の切削後微調整予算を持つ深層ニューラルネットワークにおけるランダム・マトリクス手法である。
主な実用的貢献は、短時間のキャリブレーションと微調整のスケジュールの下での精度の維持であり、長い再最適化パイプラインではなく、実行後再最適化パイプラインである。
この理論は決定論的データパス証明を与える:除去された成分 $R$ が小さな伝播ロジット効果 $L_s \| R sh_1(s) \|_\infty$ を持つなら、プルーニングは弾性ネットの目的を減らし、密接なマージンが摂動の2倍を超えるサンプルを保存する。
ゼロバッジの場合では、完全なプルーニング、固定されたスパース実行パターン内での重み回復モデル、および追加の$L_2$-regularizedモデルでは、MPバルク崩壊に伴って持続的なスパイクが安定化し、トレーニング限界で許容可能なランダムなコンポーネントが消滅することを示す。
iid-Gaussian の十分な条件下では、装着された MP エッジ $σ_+$ は高確率層予算信号を与える。
ImageNet-1kでは、3つの蒸留エポックの後、ViT-B/16 $2{:}4{+}$ToMeは8.41 %$ top-1 ($-1.70$ pp from dense)で59.81 %$ sparse-execution MAC reduce, with $1.388\times$ best-observed A40 native-$2{:}4$ backend speedup for the same checkpoint and ToMe graph; a separate no-ToMe A100 endpoint gives $2.705\times$.
構造化された空間において、ViT-B/16 6,{:}12$は8.3.74\%、ViT-L/16 8,{:}16$高密度+置換は8.5.33\%$-0.51$ pp、ConvNeXtV2-Base $12{:}16$は8.6.35\%$-0.37$ ppである。
CNNでは、ResNet50 August{:}16$ dense+permutationが$75.87\%$-0.26$ pp、ResNet152d CAST-conv+permutationが$21.33\%$$-1.53$ pp)、${\sim}50\%$ MAC accounting with a $1.62\times$ A40 im2col$+2{:}4$ sparse-GEMM auditとなる。
関連論文リスト
- Hidden-State Privacy Has an Empty Middle [51.56484100374058]
すべてのフルランクガウス解放を$O(1)$ Fisher utility で表すと、マハラノビス信号が隠れた幅で直線的に成長する方向を認める。
スクラッチからトレーニングされたスプリットメモリトランスフォーマーは、[20, 33]$90MでG_mathrmMahに達し、固定言語損失ペナルティにおいて、30Mから1Bまでの同じ予算のGPTベースラインに対して6ドル~24ドルという優位性を維持する。
論文 参考訳(メタデータ) (2026-05-21T20:12:09Z) - When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon [0.0]
KVキャッシュ量子化は、品質-レイテンシトレードオフとしてフレーム化される。
Apple Siliconの統一メモリにインセンティブを与えています。
論文 参考訳(メタデータ) (2026-05-07T05:44:39Z) - Bond-dimension scaling of a local-refinement advantage over hyperoptimized tensor-network contraction on Sycamore like topologies [0.0]
我々は,コテングラテンソル-ネットワーク収縮パイプラインにおける局所再分極の欠如を同定した。
我々は、その影響がシカモア型トポロジーの直交性グラフ上の結合次元とともに単調に増加することを示す。
論文 参考訳(メタデータ) (2026-04-28T11:59:31Z) - Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering [4.032680910442999]
大規模な言語モデルは、世代中頃の保存不可能な推論エラーを犯す。
我々は、$textbfLatent Phase-Shift Rollback$ (LPSR)を紹介する。
各生成段階において、臨界層リクリットで残留流をモニタリングし、コサイン相似性$+$エントロピー二重ゲートを介して急激な方向逆転(位相シフト)を検出する。
微調整、勾配計算、追加のフォワードパスは不要である。
論文 参考訳(メタデータ) (2026-04-20T17:53:33Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - Near-Linear Time and Fixed-Parameter Tractable Algorithms for Tensor
Decompositions [51.19236668224547]
テンソルの低階近似について検討し,テンソルトレインとタッカー分解に着目した。
テンソル列車の分解には、小さなビクリテリアランクを持つビクリテリア$(1 + eps)$-approximationアルゴリズムと、O(q cdot nnz(A))$ランニングタイムを与える。
さらに、任意のグラフを持つテンソルネットワークにアルゴリズムを拡張します。
論文 参考訳(メタデータ) (2022-07-15T11:55:09Z) - Active Sampling for Linear Regression Beyond the $\ell_2$ Norm [70.49273459706546]
対象ベクトルの少数のエントリのみを問合せすることを目的とした線形回帰のためのアクティブサンプリングアルゴリズムについて検討する。
我々はこの$d$への依存が対数的要因まで最適であることを示す。
また、損失関数に対して最初の全感度上界$O(dmax1,p/2log2 n)$を提供し、最大で$p$成長する。
論文 参考訳(メタデータ) (2021-11-09T00:20:01Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。