論文の概要: FAT: Learning Low-Bitwidth Parametric Representation via Frequency-Aware
Transformation
- arxiv url: http://arxiv.org/abs/2102.07444v1
- Date: Mon, 15 Feb 2021 10:35:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 02:54:38.614703
- Title: FAT: Learning Low-Bitwidth Parametric Representation via Frequency-Aware
Transformation
- Title(参考訳): FAT:周波数認識変換による低ビット幅パラメトリック表現の学習
- Authors: Chaofan Tao, Rui Lin, Quan Chen, Zhaoyang Zhang, Ping Luo, Ngai Wong
- Abstract要約: 周波数認識変換(fat)は、量子化前に周波数領域のネットワーク重み変換を学習する。
FATは、簡単な標準量子化器を使用して、低精度で簡単にトレーニングできます。
コードはもうすぐ入手できる。
- 参考スコア(独自算出の注目度): 31.546529106932205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning convolutional neural networks (CNNs) with low bitwidth is
challenging because performance may drop significantly after quantization.
Prior arts often discretize the network weights by carefully tuning
hyper-parameters of quantization (e.g. non-uniform stepsize and layer-wise
bitwidths), which are complicated and sub-optimal because the full-precision
and low-precision models have a large discrepancy. This work presents a novel
quantization pipeline, Frequency-Aware Transformation (FAT), which has several
appealing benefits. (1) Rather than designing complicated quantizers like
existing works, FAT learns to transform network weights in the frequency domain
before quantization, making them more amenable to training in low bitwidth. (2)
With FAT, CNNs can be easily trained in low precision using simple standard
quantizers without tedious hyper-parameter tuning. Theoretical analysis shows
that FAT improves both uniform and non-uniform quantizers. (3) FAT can be
easily plugged into many CNN architectures. When training ResNet-18 and
MobileNet-V2 in 4 bits, FAT plus a simple rounding operation already achieves
70.5% and 69.2% top-1 accuracy on ImageNet without bells and whistles,
outperforming recent state-of-the-art by reducing 54.9X and 45.7X computations
against full-precision models. Code will be available soon.
- Abstract(参考訳): 量子化後にパフォーマンスが大幅に低下する可能性があるため、ビット幅の低い畳み込みニューラルネットワーク(CNN)の学習は困難である。
プリエントアートはしばしば、量子化のハイパーパラメータを慎重にチューニングすることで、ネットワークの重みを識別する。
非一様ステップサイズとレイヤーワイドビット幅は、完全精度と低精度のモデルには大きな差があるため、複雑で最適である。
本稿では,新しい量子化パイプラインである周波数認識変換(fat)を提案する。
1)既存の作品のような複雑な量子化器を設計するのではなく、FATは量子化の前に周波数領域のネットワーク重みを変換することを学びます。
2) FATでは, 退屈なハイパーパラメータチューニングを伴わずに, 単純な標準量子化器を用いて, 低精度で容易にCNNを訓練することができる。
理論解析は、FATが均一および非均一量子化器の両方を改善することを示している。
(3) FATは簡単に多くのCNNアーキテクチャに接続できる。
4ビットでResNet-18とMobileNet-V2をトレーニングする場合、FATと単純なラウンド操作は、ベルや笛を使わずにImageNetで70.5%と69.2%の精度を達成しており、54.9Xと45.7Xの計算をフル精度モデルに対して削減することで、最近の最先端技術よりも優れていた。
コードはもうすぐ入手できる。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Tied & Reduced RNN-T Decoder [0.0]
認識性能を低下させることなく,RNN-Tデコーダ(予測ネットワーク+ジョイントネットワーク)の小型化と高速化を図る。
我々の予測ネットワークは入力埋め込みの簡単な重み付けを行い、その埋め込み行列重みを結合ネットワークの出力層と共有する。
このシンプルな設計は、追加の編集ベースの最小ベイズリスク(EMBR)トレーニングと併用することで、ワードエラー率(WER)に影響を与えることなく、RNN-Tデコーダを23Mパラメータから2Mに削減する。
論文 参考訳(メタデータ) (2021-09-15T18:19:16Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。