論文の概要: BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation
- arxiv url: http://arxiv.org/abs/2207.01394v1
- Date: Mon, 4 Jul 2022 13:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 21:28:08.714004
- Title: BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation
- Title(参考訳): BiTAT:タスク依存集約変換を用いたニューラルネットワークのバイナリ化
- Authors: Geon Park, Jaehong Yoon, Haiyang Zhang, Xing Zhang, Sung Ju Hwang,
Yonina C. Eldar
- Abstract要約: 量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
- 参考スコア(独自算出の注目度): 116.26521375592759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network quantization aims to transform high-precision weights and
activations of a given neural network into low-precision weights/activations
for reduced memory usage and computation, while preserving the performance of
the original model. However, extreme quantization (1-bit weight/1-bit
activations) of compactly-designed backbone architectures (e.g., MobileNets)
often used for edge-device deployments results in severe performance
degeneration. This paper proposes a novel Quantization-Aware Training (QAT)
method that can effectively alleviate performance degeneration even with
extreme quantization by focusing on the inter-weight dependencies, between the
weights within each layer and across consecutive layers. To minimize the
quantization impact of each weight on others, we perform an orthonormal
transformation of the weights at each layer by training an input-dependent
correlation matrix and importance vector, such that each weight is disentangled
from the others. Then, we quantize the weights based on their importance to
minimize the loss of the information from the original weights/activations. We
further perform progressive layer-wise quantization from the bottom layer to
the top, so that quantization at each layer reflects the quantized
distributions of weights and activations at previous layers. We validate the
effectiveness of our method on various benchmark datasets against strong neural
quantization baselines, demonstrating that it alleviates the performance
degeneration on ImageNet and successfully preserves the full-precision model
performance on CIFAR-100 with compact backbone networks.
- Abstract(参考訳): ニューラルネットワーク量子化(neural network quantization)は、与えられたニューラルネットワークの高精度重みとアクティベーションを低精度重み/アクティベーションに変換し、メモリ使用量と計算量を削減することを目的としている。
しかし、コンパクトに設計されたバックボーンアーキテクチャ(例えばMobileNets)の極端な量子化(1ビットの重み/1ビットのアクティベーション)は、エッジデバイス展開にしばしば使用される。
本稿では,各層内の重みと連続する層間の重み関係に着目して,極端に量子化しても効果的に性能低下を緩和できる新しい量子化・アウェアトレーニング(qat)手法を提案する。
各重みの量子化の影響を最小限に抑えるため、各重みが他の重みから切り離されるような入力依存相関行列と重要ベクトルをトレーニングすることにより、各重みの正規正規正規変換を行う。
そして、その重要性に基づいて重みを定量化し、元の重み/アクティベーションからの情報損失を最小限に抑える。
さらに,各層における量子化が,前層における重みとアクティベーションの量子化分布を反映するように,下層から上層への進行層毎の量子化を行う。
我々は,画像ネットの性能劣化を軽減し,コンパクトなバックボーンネットワークを用いたCIFAR-100上での完全精度モデル性能の維持に成功したことを示す。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。