論文の概要: Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference
- arxiv url: http://arxiv.org/abs/2212.05326v1
- Date: Sat, 10 Dec 2022 15:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 17:23:18.470086
- Title: Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference
- Title(参考訳): 不均一推論のための量子ニューラルネットワークの垂直層化
- Authors: Hai Wu, Ruifei He, Haoru Tan, Xiaojuan Qi and Kaibin Huang
- Abstract要約: 量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
- 参考スコア(独自算出の注目度): 57.42762335081385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although considerable progress has been obtained in neural network
quantization for efficient inference, existing methods are not scalable to
heterogeneous devices as one dedicated model needs to be trained, transmitted,
and stored for one specific hardware setting, incurring considerable costs in
model training and maintenance. In this paper, we study a new vertical-layered
representation of neural network weights for encapsulating all quantized models
into a single one. With this representation, we can theoretically achieve any
precision network for on-demand service while only needing to train and
maintain one model. To this end, we propose a simple once quantization-aware
training (QAT) scheme for obtaining high-performance vertical-layered models.
Our design incorporates a cascade downsampling mechanism which allows us to
obtain multiple quantized networks from one full precision source model by
progressively mapping the higher precision weights to their adjacent lower
precision counterparts. Then, with networks of different bit-widths from one
source model, multi-objective optimization is employed to train the shared
source model weights such that they can be updated simultaneously, considering
the performance of all networks. By doing this, the shared weights will be
optimized to balance the performance of different quantized models, thus making
the weights transferable among different bit widths. Experiments show that the
proposed vertical-layered representation and developed once QAT scheme are
effective in embodying multiple quantized networks into a single one and allow
one-time training, and it delivers comparable performance as that of quantized
models tailored to any specific bit-width. Code will be available.
- Abstract(参考訳): 効率的な推論のためのニューラルネットワークの量子化において、かなりの進歩が得られたが、既存の手法は、1つの専用モデルが特定のハードウェア設定のためにトレーニング、送信、保存される必要があるため、異種デバイスに対してスケーラブルではない。
本稿では,全ての量子化モデルを1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
この表現により、理論上は1つのモデルを訓練し、維持するだけでオンデマンドサービスの正確なネットワークを実現することができる。
そこで本研究では,高性能な垂直層モデルを得るための簡単な1回量子化アウェアトレーニング(qat)方式を提案する。
設計にはカスケードダウンサンプリング機構が組み込まれており、高い精度の重みを隣接する低精度の重みに段階的にマッピングすることで、1つの完全精度ソースモデルから複数の量子化ネットワークを得ることができる。
そして、1つのソースモデルから異なるビット幅のネットワークを用いて、全てのネットワークの性能を考慮して、同時に更新できるように、共有ソースモデルの重みをトレーニングするために多目的最適化を用いる。
これにより、共有重みは異なる量子化モデルの性能のバランスをとるように最適化され、異なるビット幅間で重みを転送できる。
実験により,QAT方式が複数の量子化ネットワークを1つのネットワークに具体化して1回のトレーニングが可能であり,任意のビット幅に合わせて調整された量子化モデルと同等の性能を発揮することがわかった。
コードは利用可能だ。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Probabilistic Weight Fixing: Large-scale training of neural network
weight uncertainties for quantization [7.2282857478457805]
重み共有量子化は、大規模ニューラルネットワークにおける推論中のエネルギー消費を減らす技術として登場した。
本稿では、ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと、どの重みをどのクラスタ中心に移動できるかを特定する変動緩和法を提案する。
DeiT-Tiny を用いた ImageNet では,最先端の量子化手法 Top-1 の精度が 1.6% 向上した。
論文 参考訳(メタデータ) (2023-09-24T08:04:28Z) - EQ-Net: Elastic Quantization Neural Networks [15.289359357583079]
Elastic Quantization Neural Networks (EQ-Net) は、堅牢な重み共有量子化スーパーネットのトレーニングを目的としている。
本稿では, 様々な主要な量形式に対応するために, 弾性量子化空間(弾性ビット幅, 粒度, 対称性を含む)を提案する。
遺伝的アルゴリズムと,提案した条件量子化対応条件精度予測器(CQAP)を推定器として組み込んで,混合精度量子ニューラルネットワークを高速に探索する。
論文 参考訳(メタデータ) (2023-08-15T08:57:03Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。