論文の概要: Designing strong baselines for ternary neural network quantization
through support and mass equalization
- arxiv url: http://arxiv.org/abs/2306.17442v1
- Date: Fri, 30 Jun 2023 07:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:24:39.258846
- Title: Designing strong baselines for ternary neural network quantization
through support and mass equalization
- Title(参考訳): 支持と質量等化による三元ニューラルネットワーク量子化のための強いベースラインの設計
- Authors: Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
- Abstract要約: ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 7.971065005161565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) offer the highest performance in a wide range of
applications in computer vision. These results rely on over-parameterized
backbones, which are expensive to run. This computational burden can be
dramatically reduced by quantizing (in either data-free (DFQ), post-training
(PTQ) or quantization-aware training (QAT) scenarios) floating point values to
ternary values (2 bits, with each weight taking value in {-1,0,1}). In this
context, we observe that rounding to nearest minimizes the expected error given
a uniform distribution and thus does not account for the skewness and kurtosis
of the weight distribution, which strongly affects ternary quantization
performance. This raises the following question: shall one minimize the highest
or average quantization error? To answer this, we design two operators: TQuant
and MQuant that correspond to these respective minimization tasks. We show
experimentally that our approach allows to significantly improve the
performance of ternary quantization through a variety of scenarios in DFQ, PTQ
and QAT and give strong insights to pave the way for future research in deep
neural network quantization.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
これらの結果は、実行にコストがかかるオーバーパラメータのバックボーンに依存している。
この計算負担は、(データフリー(DFQ)、後トレーニング(PTQ)、または量子化対応トレーニング(QAT)シナリオにおいて)浮動小数点値を3つの値({-1,0,1}の各重みが2ビット)に量子化することで劇的に低減することができる。
この文脈では、最寄りの丸みは、一様分布が与えられた期待誤差を最小にするため、重み分布の歪みやクルトシスを考慮せず、三元量子化性能に強く影響を及ぼす。
これは次の疑問を提起する: 最も高いか平均的な量子化誤差を最小化するか?
これに対応するために、各最小化タスクに対応するTQuantとMQuantの2つの演算子を設計する。
本手法は,dfq,ptq,qatの様々なシナリオを通じて,三元量子化の性能を著しく向上させ,深層ニューラルネットワーク量子化における今後の研究への道を開くための強い洞察を与える。
関連論文リスト
- Two Heads are Better Than One: Neural Networks Quantization with 2D Hilbert Curve-based Output Representation [3.4606942690643336]
本稿では,DNNの出力の冗長表現を用いた新しいDNN量子化手法を提案する。
このマッピングにより量子化誤差を低減できることを示す。
我々のアプローチはセグメンテーション、オブジェクト検出、キーポイント予測など他のタスクにも適用できる。
論文 参考訳(メタデータ) (2024-05-22T21:59:46Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Towards Neural Variational Monte Carlo That Scales Linearly with System
Size [67.09349921751341]
量子多体問題(Quantum many-body problem)は、例えば高温超伝導体のようなエキゾチックな量子現象をデミストする中心である。
量子状態を表すニューラルネットワーク(NN)と変分モンテカルロ(VMC)アルゴリズムの組み合わせは、そのような問題を解決する上で有望な方法であることが示されている。
ベクトル量子化技術を用いて,VMCアルゴリズムの局所エネルギー計算における冗長性を利用するNNアーキテクチャVector-Quantized Neural Quantum States (VQ-NQS)を提案する。
論文 参考訳(メタデータ) (2022-12-21T19:00:04Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。