論文の概要: Single-path Bit Sharing for Automatic Loss-aware Model Compression
- arxiv url: http://arxiv.org/abs/2101.04935v4
- Date: Thu, 4 May 2023 05:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 20:17:09.607463
- Title: Single-path Bit Sharing for Automatic Loss-aware Model Compression
- Title(参考訳): 自動損失認識モデル圧縮のためのシングルパスビット共有
- Authors: Jing Liu, Bohan Zhuang, Peng Chen, Chunhua Shen, Jianfei Cai, Mingkui
Tan
- Abstract要約: シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
- 参考スコア(独自算出の注目度): 126.98903867768732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network pruning and quantization are proven to be effective ways for deep
model compression. To obtain a highly compact model, most methods first perform
network pruning and then conduct network quantization based on the pruned
model. However, this strategy may ignore that they would affect each other and
thus performing them separately may lead to sub-optimal performance. To address
this, performing pruning and quantization jointly is essential. Nevertheless,
how to make a trade-off between pruning and quantization is non-trivial.
Moreover, existing compression methods often rely on some pre-defined
compression configurations. Some attempts have been made to search for optimal
configurations, which however may take unbearable optimization cost. To address
the above issues, we devise a simple yet effective method named Single-path Bit
Sharing (SBS). Specifically, we first consider network pruning as a special
case of quantization, which provides a unified view for pruning and
quantization. We then introduce a single-path model to encode all candidate
compression configurations. In this way, the configuration search problem is
transformed into a subset selection problem, which significantly reduces the
number of parameters, computational cost and optimization difficulty. Relying
on the single-path model, we further introduce learnable binary gates to encode
the choice of bitwidth. By jointly training the binary gates in conjunction
with network parameters, the compression configurations of each layer can be
automatically determined. Extensive experiments on both CIFAR-100 and ImageNet
show that SBS is able to significantly reduce computational cost while
achieving promising performance. For example, our SBS compressed MobileNetV2
achieves 22.6x Bit-Operation (BOP) reduction with only 0.1% drop in the Top-1
accuracy.
- Abstract(参考訳): ネットワークプルーニングと量子化は、ディープモデル圧縮に有効な方法であることが証明されている。
高コンパクトなモデルを得るため、ほとんどの手法はまずネットワークプルーニングを行い、次にプルーンドモデルに基づいてネットワーク量子化を行う。
しかし、この戦略は相互に影響しあうことを無視し、個別に実行すると最適以下のパフォーマンスにつながる可能性がある。
これに対処するためには、プルーニングと量子化を共同で行うことが不可欠である。
それでも、刈り取りと量子化のトレードオフは自明ではない。
さらに、既存の圧縮メソッドは、事前定義された圧縮設定に依存することが多い。
最適設定を探索する試みはいくつかあるが、これは許容できない最適化コストを必要とする可能性がある。
上記の問題に対処するため,Single-path Bit Sharing (SBS) というシンプルな手法を考案した。
具体的には,まずネットワークプルーニングを,プルーニングと量子化の統一的なビューを提供する量子化の特別なケースとして捉えた。
次に、すべての候補圧縮構成をエンコードする単一パスモデルを導入する。
このようにして、構成探索問題をサブセット選択問題に変換し、パラメータ数、計算コスト、最適化の難しさを大幅に低減する。
単一パスモデルに依存して、bitwidthの選択をエンコードするために学習可能なバイナリゲートも導入する。
ネットワークパラメータとともにバイナリゲートを共同でトレーニングすることにより、各レイヤの圧縮構成を自動的に決定することができる。
CIFAR-100とImageNetの両方での大規模な実験により、SBSは有望な性能を達成しつつ、計算コストを大幅に削減できることが示された。
例えば、SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍のビット演算(BOP)を実現する。
関連論文リスト
- Neural Network Compression using Binarization and Few Full-Precision
Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。
APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。
APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文 参考訳(メタデータ) (2023-06-15T08:52:00Z) - Towards Hardware-Specific Automatic Compression of Neural Networks [0.0]
プルーニングと量子化が ニューラルネットワークを圧縮する主要なアプローチです
効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。
本稿では,プレニングと量子化を利用した強化学習を用いて,Galenと呼ばれるアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:34:02Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。
ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。
共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文 参考訳(メタデータ) (2020-11-12T07:06:29Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z) - A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。
我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。
提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文 参考訳(メタデータ) (2020-01-15T20:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。