Fugu-MT 論文翻訳(概要): Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss

論文の概要: Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss

arxiv url: http://arxiv.org/abs/2207.10083v1
Date: Wed, 20 Jul 2022 10:55:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-22 13:25:43.879077
Title: Mixed-Precision Inference Quantization: Radically Towards Faster inference speed, Lower Storage requirement, and Lower Loss
Title（参考訳）: mixed-precision inference quantization: 推論速度の高速化,ストレージ要件の低減,損失の低減に向けて
Authors: Daning Cheng, Wenguang Chen
Abstract要約: 既存の量子化技術は、経験と「微調整」スキルに大きく依存している。本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
参考スコア（独自算出の注目度）: 4.877532217193618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Based on the model's resilience to computational noise, model quantization is important for compressing models and improving computing speed. Existing quantization techniques rely heavily on experience and "fine-tuning" skills. In the majority of instances, the quantization model has a larger loss than a full precision model. This study provides a methodology for acquiring a mixed-precise quantization model with a lower loss than the full precision model. In addition, the analysis demonstrates that, throughout the inference process, the loss function is mostly affected by the noise of the layer inputs. In particular, we will demonstrate that neural networks with massive identity mappings are resistant to the quantization method. It is also difficult to improve the performance of these networks using quantization.
Abstract（参考訳）: 計算ノイズに対するモデルのレジリエンスに基づくモデル量子化は、モデルを圧縮し、計算速度を改善するために重要である。既存の量子化技術は、経験と「微調整」スキルに大きく依存している。ほとんどの例では、量子化モデルは完全な精度モデルよりも大きな損失がある。本研究は,完全精度モデルよりも損失の少ない混合精度量子化モデルを得るための手法を提供する。さらに、解析により、推論過程を通して、損失関数は、主に層入力のノイズの影響を受けていることが示された。特に、大量のアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。また,量子化によるネットワークの性能向上も困難である。

関連論文リスト

Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Oscillations Make Neural Networks Robust to Quantization [0.16385815610837165]
量子化アウェアトレーニング(QAT)における振動は,STE(Straight-Through Estimator)によって引き起こされる望ましくない人工物であることを示す。量子化を改善するために振動を誘導する新しい正則化法を提案する。
論文参考訳（メタデータ） (2025-02-01T16:39:58Z)
Post-Training Non-Uniform Quantization for Convolutional Neural Networks [0.0]
量子化は、大規模なストレージ要件を緩和し、推論プロセスを高速化する技術である。本稿では,モデル重みに対する学習後の量子化手法を提案する。提案手法は,量子化ノイズを最小限に抑える数学的保証とともに,最適クリッピングしきい値とスケーリング係数を求める。
論文参考訳（メタデータ） (2024-12-10T10:33:58Z)
QGen: On the Ability to Generalize in Quantization Aware Training [35.0485699853394]
量子化は、モデルの重みとアクティベーションを表すために少ないビットを利用することで、メモリ使用量、計算要求、レイテンシを低下させる。ニューラルネットワークにおける量子化の理論モデルを開発し、正則化の形式として量子化がどのように機能するかを示す。
論文参考訳（メタデータ） (2024-04-17T21:52:21Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文参考訳（メタデータ） (2023-06-08T02:18:58Z)
Ternary Quantization: A Survey [12.90416661059601]
深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。 3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
論文参考訳（メタデータ） (2023-03-02T03:38:51Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
Mixed Precision Post Training Quantization of Neural Networks with Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文参考訳（メタデータ） (2023-02-02T19:30:00Z)
Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。結果の問題は強い双対であり、勾配推定は不要であることを示す。提案手法は画像分類タスクにおける競合性能を示す。
論文参考訳（メタデータ） (2022-10-27T17:12:48Z)
ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文参考訳（メタデータ） (2022-04-30T06:58:56Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)
Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文参考訳（メタデータ） (2021-03-29T01:33:34Z)
DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文参考訳（メタデータ） (2020-12-21T10:19:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。