論文の概要: GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks
- arxiv url: http://arxiv.org/abs/2309.13773v1
- Date: Sun, 24 Sep 2023 23:01:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 17:44:15.511418
- Title: GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks
- Title(参考訳): GHN-QAT:Unseen Limited Precision Neural Networkの量子化-ロバストパラメータ予測のためのグラフハイパーネットのトレーニング
- Authors: Stone Yun, Alexander Wong
- Abstract要約: Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 80.29667394618625
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Graph Hypernetworks (GHN) can predict the parameters of varying unseen CNN
architectures with surprisingly good accuracy at a fraction of the cost of
iterative optimization. Following these successes, preliminary research has
explored the use of GHNs to predict quantization-robust parameters for 8-bit
and 4-bit quantized CNNs. However, this early work leveraged full-precision
float32 training and only quantized for testing. We explore the impact of
quantization-aware training and/or other quantization-based training strategies
on quantized robustness and performance of GHN predicted parameters for
low-precision CNNs. We show that quantization-aware training can significantly
improve quantized accuracy for GHN predicted parameters of 4-bit quantized CNNs
and even lead to greater-than-random accuracy for 2-bit quantized CNNs. These
promising results open the door for future explorations such as investigating
the use of GHN predicted parameters as initialization for further quantized
training of individual CNNs, further exploration of "extreme bitwidth"
quantization, and mixed precision quantization schemes.
- Abstract(参考訳): Graph Hypernetworks (GHN) は、異なる未知のCNNアーキテクチャのパラメータを、反復最適化のコストのごく一部で驚くほど高い精度で予測することができる。
これらの成功に続いて、予備的な研究は、8ビットおよび4ビットの量子化されたCNNの量子化ロバストパラメータの予測にGHNを用いたことを検討した。
しかし、この初期の研究はフル精度のfloat32トレーニングを活用し、試験のためにのみ定量化された。
低精度CNNに対するGHN予測パラメータの量子化ロバスト性と性能に及ぼす量子化対応トレーニングおよび/または他の量子化ベーストレーニング戦略の影響を検討する。
量子化学習は, 4ビット量子化CNNのGHN予測パラメータの量子化精度を大幅に向上し, 2ビット量子化CNNのランダム化精度も向上することを示した。
これらの有望な結果は、個々のCNNのさらなる量子化トレーニングのための初期化としてGHN予測パラメータの使用、"極端ビット幅"量子化のさらなる探索、混合精度量子化スキームなどの将来の探索への扉を開く。
関連論文リスト
- PD-Quant: Post-Training Quantization based on Prediction Difference
Metric [43.81334288840746]
ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
適切な量子化パラメータを決定する方法が、現在直面している主要な問題である。
PD-Quantは、グローバル情報を考慮してこの制限に対処する手法である。
論文 参考訳(メタデータ) (2022-12-14T05:48:58Z) - GHN-Q: Parameter Prediction for Unseen Quantized Convolutional
Architectures via Graph Hypernetworks [80.29667394618625]
我々は,未知の量子化CNNアーキテクチャのパラメータの予測にグラフハイパーネットを用いることを初めて検討した。
我々は、CNNの探索空間の縮小に着目し、GHN-Qが実際に8ビットの量子化されたCNNの量子化-ロバストパラメータを予測できることを見出した。
論文 参考訳(メタデータ) (2022-08-26T08:00:02Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms [0.9954382983583577]
本稿では,事前学習したCNNの各レイヤの重み,バイアス,アクティベーションを最適に定量化する手法を提案する。
このプロセスでは、パラメータの層単位での量子化が大いに役立ちます。
論文 参考訳(メタデータ) (2021-02-03T17:05:55Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。