論文の概要: Weight Variance Amplifier Improves Accuracy in High-Sparsity One-Shot Pruning
- arxiv url: http://arxiv.org/abs/2511.14282v1
- Date: Tue, 18 Nov 2025 09:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.03188
- Title: Weight Variance Amplifier Improves Accuracy in High-Sparsity One-Shot Pruning
- Title(参考訳): 軽量可変増幅器は高スパーシティワンショットプルーニングの精度を向上する
- Authors: Vincent-Daniel Yun, Junhyuk Jo, Sunwoo Lee,
- Abstract要約: ワンショットプルーニングは、追加のトレーニングなしでモデルサイズの削減に有効な戦略である。
本稿では、学習中のモデルパラメータの分散を意図的に増大させる可変増幅正規化器(VAR)を提案する。
- 参考スコア(独自算出の注目度): 2.0541440514363365
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep neural networks achieve outstanding performance in visual recognition tasks, yet their large number of parameters makes them less practical for real-world applications. Recently, one-shot pruning has emerged as an effective strategy for reducing model size without additional training. However, models trained with standard objective functions often suffer a significant drop in accuracy after aggressive pruning. Some existing pruning-robust optimizers, such as SAM, and CrAM, mitigate this accuracy drop by guiding the model toward flatter regions of the parameter space, but they inevitably incur non-negligible additional computations. We propose a Variance Amplifying Regularizer (VAR) that deliberately increases the variance of model parameters during training. Our study reveals an intriguing finding that parameters with higher variance exhibit greater pruning robustness. VAR exploits this property by promoting such variance in the weight distribution, thereby mitigating the adverse effects of pruning. We further provide a theoretical analysis of its convergence behavior, supported by extensive empirical results demonstrating the superior pruning robustness of VAR.
- Abstract(参考訳): ディープニューラルネットワークは、視覚認識タスクにおいて優れたパフォーマンスを達成するが、その多数のパラメータは、現実世界のアプリケーションでは実用的ではない。
近年,一発プルーニングは,追加訓練を伴わずにモデルサイズの削減に有効な戦略として浮上している。
しかし、標準的な目的関数で訓練されたモデルは、攻撃的プルーニング後の精度が著しく低下することが多い。
SAMやCrAMのような既存のプルーニング・ロバスト最適化器は、モデルをパラメータ空間の平坦な領域に向けて導くことによって、この精度低下を緩和するが、必然的に無視できない追加計算を発生させる。
本稿では、学習中のモデルパラメータの分散を意図的に増大させる可変増幅正規化器(VAR)を提案する。
本研究は, 高い分散度を持つパラメータがより高いプルーニングロバスト性を示すことの興味深い発見である。
VARはこの特性を利用して重量分布のばらつきを促進し、刈り込みによる悪影響を緩和する。
さらに,その収束挙動を理論的に解析し,VARの優れた打抜き堅牢性を示す実験結果によって裏付ける。
関連論文リスト
- LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Provable Benefits of Overparameterization in Model Compression: From
Double Descent to Pruning Neural Networks [38.153825455980645]
最近の実証的な証拠は、オーバライゼーションの実践が大きなモデルのトレーニングに利益をもたらすだけでなく、軽量モデルの構築を支援することも示している。
本稿では,モデル刈り込みの高次元ツールセットを理論的に特徴付けることにより,これらの経験的発見に光を当てる。
もっとも情報に富む特徴の位置が分かっていても、我々は大きなモデルに適合し、刈り取るのがよい体制を解析的に特定する。
論文 参考訳(メタデータ) (2020-12-16T05:13:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Blind Adversarial Pruning: Balance Accuracy, Efficiency and Robustness [3.039568795810294]
本稿では, 段階的プルーニング過程において, 圧縮比が異なるプルーニングモデルのロバスト性について検討する。
次に、クリーンなデータと逆の例を段階的なプルーニングプロセスに混合する性能を検証し、逆プルーニング(英語版)と呼ぶ。
AERのバランスを改善するために,視覚的対位法(BAP)というアプローチを提案し,段階的対位法に視覚的対位法を取り入れた。
論文 参考訳(メタデータ) (2020-04-10T02:27:48Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。