論文の概要: FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization
Search
- arxiv url: http://arxiv.org/abs/2308.03290v1
- Date: Mon, 7 Aug 2023 04:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:23:19.786237
- Title: FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization
Search
- Title(参考訳): FLIQS:One-Shot Mixed-Precision Floating-Point and Integer Quantization Search
- Authors: Jordan Dotzel, Gang Wu, Andrew Li, Muhammad Umar, Yun Ni, Mohamed S.
Abdelfattah, Zhiru Zhang, Liqun Cheng, Martin G. Dixon, Norman P. Jouppi,
Quoc V. Le, Sheng Li
- Abstract要約: モデルコストの低い高品質な結果を得るためには、混合精度量子化が必要である。
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
提案手法は,一様精度,手動混合精度,最近の整数量子化探索法により改良されたモデルを検出する。
- 参考スコア(独自算出の注目度): 61.636237842419064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has become a mainstream compression technique for reducing model
size, computational requirements, and energy consumption for modern deep neural
networks (DNNs). With the improved numerical support in recent hardware,
including multiple variants of integer and floating point, mixed-precision
quantization has become necessary to achieve high-quality results with low
model cost. Prior mixed-precision quantization methods have performed a
post-training quantization search, which compromises on accuracy, or a
differentiable quantization search, which leads to high memory usage from
branching. Therefore, we propose the first one-shot mixed-precision
quantization search that eliminates the need for retraining in both integer and
low-precision floating point models. We evaluate our floating-point and integer
quantization search (FLIQS) on multiple convolutional networks and vision
transformer models to discover Pareto-optimal models. Our approach discovers
models that improve upon uniform precision, manual mixed-precision, and recent
integer quantization search methods. With the proposed integer quantization
search, we increase the accuracy of ResNet-18 on ImageNet by 1.31% points and
ResNet-50 by 0.90% points with equivalent model cost over previous methods.
Additionally, for the first time, we explore a novel mixed-precision
floating-point search and improve MobileNetV2 by up to 0.98% points compared to
prior state-of-the-art FP8 models. Finally, we extend FLIQS to simultaneously
search a joint quantization and neural architecture space and improve the
ImageNet accuracy by 2.69% points with similar model cost on a MobileNetV2
search space.
- Abstract(参考訳): 量子化は、現代のディープニューラルネットワーク(DNN)のモデルサイズ、計算要求、エネルギー消費を減らすための主流圧縮技術となっている。
最近のハードウェアでは、整数と浮動小数点の複数の変種を含む数値的サポートが改善され、モデルコストの低い高品質な結果を得るために混合精度量子化が求められている。
事前の混合精度量子化法は、精度を損なうトレーニング後の量子化探索や、分岐から高いメモリ使用率をもたらす微分可能な量子化探索を実行している。
そこで本研究では,整数モデルと低精度浮動小数点モデルの両方で再学習する必要をなくした,最初の単発混合精度量子化探索を提案する。
複数の畳み込みネットワークおよび視覚変換器モデル上での浮動小数点および整数量子化探索(FLIQS)を評価し,パレート最適モデルを検出する。
提案手法は,一様精度,手動混合精度,最近の整数量子化探索法により改良されたモデルを検出する。
提案する整数量子化探索により,imagenetにおけるresnet-18の精度を1.31%向上させ,resnet-50を0.90%向上させる。
さらに,新しい混合精度浮動小数点探索法を初めて検討し,最新のfp8モデルと比較して,mobilenetv2を最大0.98%改善した。
最後に、fliqsを拡張して、共同量子化とニューラルアーキテクチャ空間を同時に検索し、mobilenetv2検索空間における同様のモデルコストでイメージネットの精度を2.69%向上させる。
関連論文リスト
- Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Effective and Fast: A Novel Sequential Single Path Search for
Mixed-Precision Quantization [45.22093693422085]
混合精度量子化モデルは、異なる層の感度に応じて異なる量子化ビット精度にマッチし、優れた性能を達成できます。
いくつかの制約に従ってディープニューラルネットワークにおける各層の量子化ビット精度を迅速に決定することは難しい問題である。
混合精度量子化のための新規なシーケンシャルシングルパス探索(SSPS)法を提案する。
論文 参考訳(メタデータ) (2021-03-04T09:15:08Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。