論文の概要: LBS: Loss-aware Bit Sharing for Automatic Model Compression
- arxiv url: http://arxiv.org/abs/2101.04935v2
- Date: Mon, 15 Feb 2021 12:07:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 18:31:42.431741
- Title: LBS: Loss-aware Bit Sharing for Automatic Model Compression
- Title(参考訳): LBS: 自動圧縮のための損失認識ビット共有
- Authors: Jing Liu, Bohan Zhuang, Peng Chen, Yong Guo, Chunhua Shen, Jianfei
Cai, Mingkui Tan
- Abstract要約: モデル圧縮設定を自動的に検索するロスアウェアビット共有。
CIFAR-100とImageNetの実験は、LCSが有望な性能を維持しながら計算コストを大幅に削減できることを示しています。
- 参考スコア(独自算出の注目度): 141.76536598851786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bitwidth model compression is an effective method to reduce the model
size and computational overhead. Existing compression methods rely on some
compression configurations (such as pruning rates, and/or bitwidths), which are
often determined manually and not optimal. Some attempts have been made to
search them automatically, but the optimization process is often very
expensive. To alleviate this, we devise a simple yet effective method named
Loss-aware Bit Sharing (LBS) to automatically search for optimal model
compression configurations. To this end, we propose a novel single-path model
to encode all candidate compression configurations, where a high bitwidth
quantized value can be decomposed into the sum of the lowest bitwidth quantized
value and a series of re-assignment offsets. We then introduce learnable binary
gates to encode the choice of bitwidth, including filter-wise 0-bit for filter
pruning. By jointly training the binary gates in conjunction with network
parameters, the compression configurations of each layer can be automatically
determined. Extensive experiments on both CIFAR-100 and ImageNet show that LBS
is able to significantly reduce computational cost while preserving promising
performance.
- Abstract(参考訳): 低ビット幅モデル圧縮は、モデルサイズと計算オーバーヘッドを減らす効果的な方法である。
既存の圧縮方法はいくつかの圧縮構成(プルーニングレートやビット幅など)に依存しており、しばしば手動で決定される。
自動で検索する試みもあるが、最適化プロセスは非常に高価であることが多い。
これを解決するために,Los-Aware Bit Sharing (LBS) というシンプルな手法を考案し,最適なモデル圧縮構成を自動検索する。
そこで本研究では,ビット幅量子化値の高い値を,最小ビット幅量子化値と一連の再割り当てオフセットの合計に分解可能な,全ての候補圧縮構成を符号化する新しい単一パスモデルを提案する。
次に、学習可能なバイナリゲートを導入してビット幅の選択を符号化し、フィルタプルーニングのためのフィルタワイズ0ビットを含む。
ネットワークパラメータとともにバイナリゲートを共同でトレーニングすることにより、各レイヤの圧縮構成を自動的に決定することができる。
CIFAR-100とImageNetの広範な実験により、LBSは有望な性能を維持しながら計算コストを大幅に削減できることが示された。
関連論文リスト
- Neural Network Compression using Binarization and Few Full-Precision
Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文 参考訳(メタデータ) (2023-06-15T08:52:00Z) - Towards Hardware-Specific Automatic Compression of Neural Networks [0.0]
プルーニングと量子化が ニューラルネットワークを圧縮する主要なアプローチです
効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。
本稿では,プレニングと量子化を利用した強化学習を用いて,Galenと呼ばれるアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:34:02Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。
ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。
共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文 参考訳(メタデータ) (2020-11-12T07:06:29Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z) - A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。
我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。
提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文 参考訳(メタデータ) (2020-01-15T20:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。