論文の概要: One Weight Bitwidth to Rule Them All
- arxiv url: http://arxiv.org/abs/2008.09916v2
- Date: Fri, 28 Aug 2020 18:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 07:54:24.282864
- Title: One Weight Bitwidth to Rule Them All
- Title(参考訳): すべてを支配するために1つの重みのビットウィドス
- Authors: Ting-Wu Chin, Pierce I-Jen Chuang, Vikas Chandra, Diana Marculescu
- Abstract要約: ネットワーク全体に対して1ビット幅を使用すると、混合精度の量子化よりも精度がよいことを示す。
この結果から,チャネル数が対象のハイパーパラメータとなると,ネットワーク全体のシングルウェイトビット幅がモデル圧縮に優れた結果を示すことが示唆された。
- 参考スコア(独自算出の注目度): 24.373061354080825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weight quantization for deep ConvNets has shown promising results for
applications such as image classification and semantic segmentation and is
especially important for applications where memory storage is limited. However,
when aiming for quantization without accuracy degradation, different tasks may
end up with different bitwidths. This creates complexity for software and
hardware support and the complexity accumulates when one considers
mixed-precision quantization, in which case each layer's weights use a
different bitwidth. Our key insight is that optimizing for the least bitwidth
subject to no accuracy degradation is not necessarily an optimal strategy. This
is because one cannot decide optimality between two bitwidths if one has a
smaller model size while the other has better accuracy. In this work, we take
the first step to understand if some weight bitwidth is better than others by
aligning all to the same model size using a width-multiplier. Under this
setting, somewhat surprisingly, we show that using a single bitwidth for the
whole network can achieve better accuracy compared to mixed-precision
quantization targeting zero accuracy degradation when both have the same model
size. In particular, our results suggest that when the number of channels
becomes a target hyperparameter, a single weight bitwidth throughout the
network shows superior results for model compression.
- Abstract(参考訳): ディープコンブネットの重み量子化は画像分類やセマンティクスセグメンテーションなどのアプリケーションで有望な結果を示しており、メモリストレージが限られているアプリケーションでは特に重要である。
しかし、精度劣化のない量子化を目指す場合、異なるタスクは異なるビット幅で終わる可能性がある。
これにより、ソフトウェアとハードウェアのサポートが複雑化し、混合精度量子化を考えると複雑さが蓄積され、各層の重みが異なるビット幅を使用する。
我々の重要な洞察は、精度劣化のない最小ビット幅の最適化は必ずしも最適戦略ではないということである。
これは、モデルサイズが小さい場合、2ビット幅間の最適性を決定することができず、他方の方が精度が良いためである。
本研究では、幅乗算器を用いて同じモデルサイズに全て合わせることにより、ある重みビット幅が他より優れているかどうかを理解するための第一歩を踏み出します。
この条件下では,ネットワーク全体に対して単一ビット幅を用いることで,モデルサイズが同じ場合の精度劣化をゼロとする混合精度量子化よりも精度が向上することを示す。
特に,チャネル数が対象ハイパーパラメータとなると,ネットワーク全体の単一重みビット幅がモデル圧縮に優れた結果を示すことが示唆された。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Channel-wise Mixed-precision Assignment for DNN Inference on Constrained
Edge Nodes [22.40937602825472]
最先端の混合精度は階層的に作用する、すなわち、各ネットワーク層の重みとアクティベーションのテンソルに異なるビット幅を使用する。
本研究では,各重みテンソルチャネルのビット幅を独立に選択する新しいNASを提案する。
我々のネットワークは、それぞれ最大63%と27%のメモリとエネルギーを削減します。
論文 参考訳(メタデータ) (2022-06-17T15:51:49Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。