論文の概要: Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss
- arxiv url: http://arxiv.org/abs/2207.10083v1
- Date: Wed, 20 Jul 2022 10:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:25:43.879077
- Title: Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss
- Title(参考訳): mixed-precision inference quantization: 推論速度の高速化,ストレージ要件の低減,損失の低減に向けて
- Authors: Daning Cheng, Wenguang Chen
- Abstract要約: 既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
- 参考スコア(独自算出の注目度): 4.877532217193618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Based on the model's resilience to computational noise, model quantization is
important for compressing models and improving computing speed. Existing
quantization techniques rely heavily on experience and "fine-tuning" skills. In
the majority of instances, the quantization model has a larger loss than a full
precision model. This study provides a methodology for acquiring a
mixed-precise quantization model with a lower loss than the full precision
model. In addition, the analysis demonstrates that, throughout the inference
process, the loss function is mostly affected by the noise of the layer inputs.
In particular, we will demonstrate that neural networks with massive identity
mappings are resistant to the quantization method. It is also difficult to
improve the performance of these networks using quantization.
- Abstract(参考訳): 計算ノイズに対するモデルのレジリエンスに基づくモデル量子化は、モデルを圧縮し、計算速度を改善するために重要である。
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
ほとんどの例では、量子化モデルは完全な精度モデルよりも大きな損失がある。
本研究は,完全精度モデルよりも損失の少ない混合精度量子化モデルを得るための手法を提供する。
さらに、解析により、推論過程を通して、損失関数は、主に層入力のノイズの影響を受けていることが示された。
特に、大量のアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
また,量子化によるネットワークの性能向上も困難である。
関連論文リスト
- Ternary Quantization: A Survey [12.90416661059601]
深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
論文 参考訳(メタデータ) (2023-03-02T03:38:51Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。