論文の概要: Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning
- arxiv url: http://arxiv.org/abs/2208.11580v1
- Date: Wed, 24 Aug 2022 14:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:11:31.268665
- Title: Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning
- Title(参考訳): 最適脳圧縮: トレーニング後の量子化とプルーニングの正確なフレームワーク
- Authors: Elias Frantar, Dan Alistarh
- Abstract要約: 重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。
既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
- 参考スコア(独自算出の注目度): 29.284147465251685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the problem of model compression for deep neural networks (DNNs)
in the challenging post-training setting, in which we are given an accurate
trained model, and must compress it without any retraining, based only on a
small amount of calibration input data. This problem has become popular in view
of the emerging software and hardware support for executing models compressed
via pruning and/or quantization with speedup, and well-performing solutions
have been proposed independently for both compression approaches. In this
paper, we introduce a new compression framework which covers both weight
pruning and quantization in a unified setting, is time- and space-efficient,
and considerably improves upon the practical performance of existing
post-training methods. At the technical level, our approach is based on the
first exact and efficient realization of the classical Optimal Brain Surgeon
(OBS) framework of [LeCun, Denker, and Solla, 1990] at the scale of modern
DNNs, which we further extend to cover weight quantization. This is enabled by
a series of algorithmic developments which may be of independent interest. From
the practical perspective, our experimental results show that it can improve
significantly upon the compression-accuracy trade-offs of existing
post-training methods, and that it can even enable the accurate joint
application of both pruning and quantization in a post-training setting.
- Abstract(参考訳): 本研究では,訓練後の学習環境における深層ニューラルネットワーク(dnn)のモデル圧縮の問題点について検討し,少量のキャリブレーション入力データのみに基づいて再トレーニングすることなく圧縮する必要があることを明らかにした。
この問題は、プルーニングおよび/またはスピードアップによる量子化によって圧縮されたモデルを実行するための新しいソフトウェアやハードウェアのサポートが普及し、双方の圧縮アプローチに対して、優れた性能のソリューションが独立して提案されている。
本稿では,軽量化と量子化の両方を統一的にカバーし,時間と空間効率が向上し,既存のポストトレーニング手法の実用性を大幅に向上した新しい圧縮フレームワークを提案する。
技術的レベルでは、我々のアプローチは、[LeCun, Denker, and Solla, 1990] の古典的 Optimal Brain Surgeon (OBS) フレームワークを現代の DNN のスケールで実現した最初の正確かつ効率的な実現に基づいている。
これは、独立した興味を持つかもしれない一連のアルゴリズム開発によって実現される。
実践的な観点からは,既存のポストトレーニング手法の圧縮精度トレードオフに対して大幅な改善が可能であること,そして,ポストトレーニング環境でのプルーニングと量子化の両方の正確なジョイント適用が可能であることを実証した。
関連論文リスト
- Predicting Probabilities of Error to Combine Quantization and Early Exiting: QuEE [68.6018458996143]
本稿では,量子化と早期出口動的ネットワークを組み合わせたより一般的な動的ネットワークQuEEを提案する。
我々のアルゴリズムは、ソフトアーリーエグジットや入力依存圧縮の一形態と見なすことができる。
提案手法の重要な要素は、さらなる計算によって実現可能な潜在的な精度向上の正確な予測である。
論文 参考訳(メタデータ) (2024-06-20T15:25:13Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Fast as CHITA: Neural Network Pruning with Combinatorial Optimization [9.440450886684603]
本稿では,複数重みの重み付けと重み付けの併用効果を両立する最適化型プルーニングフレームワークを提案する。
我々のアプローチであるCHITAは、古典的なBrain Surgeonフレームワークを拡張し、スピード、メモリ、パフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-02-28T15:03:18Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。