論文の概要: Towards Optimal Compression: Joint Pruning and Quantization
- arxiv url: http://arxiv.org/abs/2302.07612v1
- Date: Wed, 15 Feb 2023 12:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:16:55.665631
- Title: Towards Optimal Compression: Joint Pruning and Quantization
- Title(参考訳): 最適圧縮に向けて:ジョイントプルーニングと量子化
- Authors: Ben Zandonati, Glenn Bucagu, Adrian Alan Pol, Maurizio Pierini, Olya
Sirkin, Tal Kopetz
- Abstract要約: 本稿では,FITCompressについて述べる。FITCompressは,1つのアーキテクチャで階層的に混合された量子化とプルーニングを統一する手法である。
ImageNetの実験では,提案手法の有効性を検証し,精度と効率のトレードオフが良好であることを示す。
- 参考スコア(独自算出の注目度): 1.191194620421783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compression of deep neural networks has become a necessary stage for
optimizing model inference on resource-constrained hardware. This paper
presents FITCompress, a method for unifying layer-wise mixed precision
quantization and pruning under a single heuristic, as an alternative to neural
architecture search and Bayesian-based techniques. FITCompress combines the
Fisher Information Metric, and path planning through compression space, to pick
optimal configurations given size and operation constraints with single-shot
fine-tuning. Experiments on ImageNet validate the method and show that our
approach yields a better trade-off between accuracy and efficiency when
compared to the baselines. Besides computer vision benchmarks, we experiment
with the BERT model on a language understanding task, paving the way towards
its optimal compression.
- Abstract(参考訳): 深層ニューラルネットワークの圧縮は、リソース制約のあるハードウェア上でのモデル推論を最適化するために必要な段階となっている。
本稿では,ニューラルネットワーク探索とベイズに基づく手法の代替として,階層的な混合精度量子化とプルーニングを単一ヒューリスティックで統一するFITCompressを提案する。
FITCompressはFisher Information Metricと圧縮空間による経路計画を組み合わせることで、与えられたサイズと操作制約を単一ショットの微調整で選択する。
ImageNetの実験では,本手法の有効性を検証し,ベースラインと比較して精度と効率のトレードオフが良好であることを示す。
コンピュータビジョンベンチマークの他に、言語理解タスクにおいてBERTモデルを実験し、その最適圧縮への道を開いた。
関連論文リスト
- Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning [29.284147465251685]
重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。
既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-24T14:33:35Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。