論文の概要: Pruning vs Quantization: Which is Better?
- arxiv url: http://arxiv.org/abs/2307.02973v1
- Date: Thu, 6 Jul 2023 13:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:07:06.868578
- Title: Pruning vs Quantization: Which is Better?
- Title(参考訳): プルーニング対量子化:どちらが良いか
- Authors: Andrey Kuzmin, Markus Nagel, Mart van Baalen, Arash Behboodi, Tijmen
Blankevoort
- Abstract要約: 深層ニューラルネットワークを圧縮する2つの手法の比較を行った。
その結果,ほとんどの場合,量子化はプルーニングよりも優れていた。
非常に高い圧縮比を持ついくつかのシナリオでのみ、プルーニングは精度の観点から有益である。
- 参考スコア(独自算出の注目度): 19.28178596044852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network pruning and quantization techniques are almost as old as
neural networks themselves. However, to date only ad-hoc comparisons between
the two have been published. In this paper, we set out to answer the question
on which is better: neural network quantization or pruning? By answering this
question, we hope to inform design decisions made on neural network hardware
going forward. We provide an extensive comparison between the two techniques
for compressing deep neural networks. First, we give an analytical comparison
of expected quantization and pruning error for general data distributions.
Then, we provide lower bounds for the per-layer pruning and quantization error
in trained networks, and compare these to empirical error after optimization.
Finally, we provide an extensive experimental comparison for training 8
large-scale models on 3 tasks. Our results show that in most cases quantization
outperforms pruning. Only in some scenarios with very high compression ratio,
pruning might be beneficial from an accuracy standpoint.
- Abstract(参考訳): ニューラルネットワークのプルーニングと量子化技術は、ニューラルネットワーク自体と同じくらい古い。
しかし、現在では両者のアドホックな比較しか発表されていない。
本稿では,ニューラルネットワークの量子化とプルーニングのどちらがよいのか,という問いに答える。
この質問に答えることで、今後ニューラルネットワークハードウェアに関する設計決定が下されることを期待します。
ディープニューラルネットワークを圧縮する2つの手法を広範囲に比較した。
まず、一般的なデータ分布に対する期待量子化とプルーニング誤差の分析比較を行う。
次に,学習ネットワークにおける層毎のプルーニングと量子化誤差の上限を低くし,最適化後の経験的誤差と比較する。
最後に,8つの大規模モデルを3つのタスクでトレーニングするための実験的な比較を行った。
その結果,ほとんどの場合,量子化はプルーニングよりも優れていた。
圧縮比が非常に高いいくつかのシナリオでのみ、プルーニングは精度の観点から有益である。
関連論文リスト
- Verified Neural Compressed Sensing [58.98637799432153]
精度の高い計算タスクのために、初めて(私たちの知識を最大限に活用するために)証明可能なニューラルネットワークを開発します。
極小問題次元(最大50)では、線形および双項線形測定からスパースベクトルを確実に回復するニューラルネットワークを訓練できることを示す。
ネットワークの複雑さは問題の難易度に適応できることを示し、従来の圧縮センシング手法が証明不可能な問題を解く。
論文 参考訳(メタデータ) (2024-05-07T12:20:12Z) - Quantifying lottery tickets under label noise: accuracy, calibration,
and complexity [6.232071870655069]
ディープニューラルネットワークのプルーニングは、機械学習の計算負担を軽減するために広く利用されている戦略である。
スパース二重降下法を用いて一意的に同定し,分類タスクに付随するプルーンドモデルを特徴付ける。
論文 参考訳(メタデータ) (2023-06-21T11:35:59Z) - Why is the State of Neural Network Pruning so Confusing? On the
Fairness, Comparison Setup, and Trainability in Network Pruning [58.34310957892895]
ニューラルネットワークのプルーニングの状況は、しばらくの間不明瞭で、混乱することさえあることに気付きました。
まず, 刈り取り実験における公正性原理を明らかにし, 広く利用されている比較設定を要約する。
そして,ネットワークのトレーニング性の中心的役割を指摘する。
論文 参考訳(メタデータ) (2023-01-12T18:58:33Z) - The smooth output assumption, and why deep networks are better than wide
ones [0.0]
モデルがどのように一般化するかを予測する新しい尺度を提案する。
現実には、概念間の境界が一般に形骸化していないという事実に基づいている。
論文 参考訳(メタデータ) (2022-11-25T19:05:44Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Why Lottery Ticket Wins? A Theoretical Perspective of Sample Complexity
on Pruned Neural Networks [79.74580058178594]
目的関数の幾何学的構造を解析することにより、刈り取られたニューラルネットワークを訓練する性能を解析する。
本稿では,ニューラルネットワークモデルがプルーニングされるにつれて,一般化が保証された望ましいモデル近傍の凸領域が大きくなることを示す。
論文 参考訳(メタデータ) (2021-10-12T01:11:07Z) - Lost in Pruning: The Effects of Pruning Neural Networks beyond Test
Accuracy [42.15969584135412]
ニューラルネットワークプルーニングは、現代のネットワークの推論コストを削減するために使用される一般的な技術です。
試験精度のみを終了条件で使用するだけで、結果のモデルが正常に機能するかどうかを評価します。
刈り取られたネットワークは、効果的に未刈り込みモデルに近似するが、刈り取られたネットワークがコンメンシュレートのパフォーマンスを達成できるプルー比はタスクによって大きく異なる。
論文 参考訳(メタデータ) (2021-03-04T13:22:16Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - A Partial Regularization Method for Network Compression [0.0]
本稿では, モデル圧縮を高速に行うために, 完全正則化と言われる全てのパラメータをペナライズする元の形式ではなく, 部分正則化のアプローチを提案する。
実験結果から, ほぼすべての状況において, 走行時間の減少を観測することにより, 計算複雑性を低減できることが示唆された。
驚くべきことに、複数のデータセットのトレーニングフェーズとテストフェーズの両方において、回帰フィッティング結果や分類精度などの重要な指標を改善するのに役立ちます。
論文 参考訳(メタデータ) (2020-09-03T00:38:27Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。