論文の概要: Towards Optimal Compression: Joint Pruning and Quantization
- arxiv url: http://arxiv.org/abs/2302.07612v2
- Date: Sun, 11 Jun 2023 10:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:10:49.271774
- Title: Towards Optimal Compression: Joint Pruning and Quantization
- Title(参考訳): 最適圧縮に向けて:ジョイントプルーニングと量子化
- Authors: Ben Zandonati, Glenn Bucagu, Adrian Alan Pol, Maurizio Pierini, Olya
Sirkin, Tal Kopetz
- Abstract要約: 本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
- 参考スコア(独自算出の注目度): 1.191194620421783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model compression is instrumental in optimizing deep neural network inference
on resource-constrained hardware. The prevailing methods for network
compression, namely quantization and pruning, have been shown to enhance
efficiency at the cost of performance. Determining the most effective
quantization and pruning strategies for individual layers and parameters
remains a challenging problem, often requiring computationally expensive and ad
hoc numerical optimization techniques. This paper introduces FITCompress, a
novel method integrating layer-wise mixed-precision quantization and
unstructured pruning using a unified heuristic approach. By leveraging the
Fisher Information Metric and path planning through compression space,
FITCompress optimally selects a combination of pruning mask and mixed-precision
quantization configuration for a given pre-trained model and compression
constraint. Experiments on computer vision and natural language processing
benchmarks demonstrate that our proposed approach achieves a superior
compression-performance trade-off compared to existing state-of-the-art
methods. FITCompress stands out for its principled derivation, making it
versatile across tasks and network architectures, and represents a step towards
achieving optimal compression for neural networks.
- Abstract(参考訳): モデル圧縮は、リソース制約のあるハードウェア上でのディープニューラルネットワーク推論の最適化に有効である。
ネットワーク圧縮、すなわち量子化とプルーニングの一般的な手法は、性能のコストで効率を高めることが示されている。
個々の層とパラメータの最も効果的な量子化とプルーニング戦略を決定することは、難題であり、しばしば計算コストが高く、アドホックな数値最適化技術を必要とする。
本稿では,階層的な混合精度量子化と非構造化プルーニングを統一的ヒューリスティック手法を用いて統合するFITCompressを紹介する。
圧縮空間を介してフィッシャー情報メトリクスと経路計画を活用することで、フィフ圧縮は所定の事前訓練されたモデルと圧縮制約に対するプルーニングマスクと混合精度量子化構成の組み合わせを最適に選択する。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法は従来の最先端手法と比較して圧縮性能のトレードオフが優れていることを示した。
FITCompressは、その原則的導出で、タスクやネットワークアーキテクチャを多用し、ニューラルネットワークの最適な圧縮を達成するためのステップである。
関連論文リスト
- Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning [29.284147465251685]
重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。
既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-24T14:33:35Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。