論文の概要: Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization
- arxiv url: http://arxiv.org/abs/2103.02904v1
- Date: Thu, 4 Mar 2021 09:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:49:08.708892
- Title: Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization
- Title(参考訳): 効率と高速化:混合精度量子化のための新しいシーケンシャル・シングルパス探索
- Authors: Qigong Sun, Licheng Jiao, Yan Ren, Xiufang Li, Fanhua Shang, Fang Liu
- Abstract要約: 混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
- 参考スコア(独自算出の注目度): 45.22093693422085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since model quantization helps to reduce the model size and computation
latency, it has been successfully applied in many applications of mobile
phones, embedded devices and smart chips. The mixed-precision quantization
model can match different quantization bit-precisions according to the
sensitivity of different layers to achieve great performance. However, it is a
difficult problem to quickly determine the quantization bit-precision of each
layer in deep neural networks according to some constraints (e.g., hardware
resources, energy consumption, model size and computation latency). To address
this issue, we propose a novel sequential single path search (SSPS) method for
mixed-precision quantization,in which the given constraints are introduced into
its loss function to guide searching process. A single path search cell is used
to combine a fully differentiable supernet, which can be optimized by
gradient-based algorithms. Moreover, we sequentially determine the candidate
precisions according to the selection certainties to exponentially reduce the
search space and speed up the convergence of searching process. Experiments
show that our method can efficiently search the mixed-precision models for
different architectures (e.g., ResNet-20, 18, 34, 50 and MobileNet-V2) and
datasets (e.g., CIFAR-10, ImageNet and COCO) under given constraints, and our
experimental results verify that SSPS significantly outperforms their uniform
counterparts.
- Abstract(参考訳): モデル量子化はモデルサイズと計算遅延を低減するのに役立つため、携帯電話、組み込みデバイス、スマートチップの多くのアプリケーションでうまく適用されている。
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度に適合し、優れた性能を達成することができる。
しかし、いくつかの制約(ハードウェアリソース、エネルギー消費、モデルサイズ、計算遅延など)に従って、ディープニューラルネットワーク内の各層の量子化ビット精度を迅速に決定することは困難である。
この問題に対処するために,提案した制約を損失関数に導入し,探索プロセスを導出する,混合精度量子化のための新しいシーケンシャルシングルパス探索法(SSPS)を提案する。
単一の経路探索セルは、勾配に基づくアルゴリズムによって最適化できる完全微分可能なスーパーネットを結合するために使用される。
さらに, 探索空間を指数関数的に削減し, 探索過程の収束を高速化するために, 選択条件に従って候補精度を逐次決定する。
実験では,異なるアーキテクチャ(例:ResNet-20, 18, 34, 50, MobileNet-V2)とデータセット(例:CIFAR-10, ImageNet, COCO)の混合精度モデルを,特定の制約下で効率的に探索できることを示した。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - QuantNAS for super resolution: searching for efficient
quantization-friendly architectures against quantization noise [19.897685398009912]
本稿では,新しい量子化対応手法であるQuantNASを提案する。
本稿では,エントロピー正則化,量子化ノイズ,適応偏差法(adaptive Deviation for Quantization,ADQ)モジュールを用いて探索手順を強化する。
提案手法は直接量量化よりも30%高速で、より安定である。
論文 参考訳(メタデータ) (2022-08-31T13:12:16Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Finding Non-Uniform Quantization Schemes using Multi-Task Gaussian
Processes [12.798516310559375]
その結果,最後の層では精度が著しく低いため,メモリの節約を図りながら精度の低下が最小限に抑えられることがわかった。
我々は,VGG,ResNet,GoogLeNetアーキテクチャを用いて,CIFAR10およびImageNetデータセット上で実験を行った。
論文 参考訳(メタデータ) (2020-07-15T15:16:18Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。