Fugu-MT 論文翻訳(概要): Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition

論文の概要: Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition

arxiv url: http://arxiv.org/abs/2103.16827v1
Date: Wed, 31 Mar 2021 06:05:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-01 14:24:48.735233
Title: Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition
Title（参考訳）: Q-ASR:効率的な音声認識のための整数のみゼロショット量子化
Authors: Sehoon Kim, Amir Gholami, Zhewei Yao, Anirudda Nrusimha, Bohan Zhai, Tianren Gao, Michael W. Mahoney, Kurt Keutzer
Abstract要約: ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
参考スコア（独自算出の注目度）: 65.7040645560855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end neural network models achieve improved performance on various automatic speech recognition (ASR) tasks. However, these models perform poorly on edge hardware due to large memory and computation requirements. While quantizing model weights and/or activations to low-precision can be a promising solution, previous research on quantizing ASR models is limited. Most quantization approaches use floating-point arithmetic during inference; and thus they cannot fully exploit integer processing units, which use less power than their floating-point counterparts. Moreover, they require training/validation data during quantization for finetuning or calibration; however, this data may not be available due to security/privacy concerns. To address these limitations, we propose Q-ASR, an integer-only, zero-shot quantization scheme for ASR models. In particular, we generate synthetic data whose runtime statistics resemble the real data, and we use it to calibrate models during quantization. We then apply Q-ASR to quantize QuartzNet-15x5 and JasperDR-10x5 without any training data, and we show negligible WER change as compared to the full-precision baseline models. For INT8-only quantization, we observe a very modest WER degradation of up to 0.29%, while we achieve up to 2.44x speedup on a T4 GPU. Furthermore, Q-ASR exhibits a large compression rate of more than 4x with small WER degradation.
Abstract（参考訳）: エンドツーエンドのニューラルネットワークモデルは、様々な自動音声認識(ASR)タスクの性能を向上させる。しかし、これらのモデルは大きなメモリと計算要求のためにエッジハードウェアでは性能が良くない。モデル重みの定量化や低精度化へのアクティベーションは有望な解決策であるが、asrモデルの定量化に関するこれまでの研究は限られている。ほとんどの量子化アプローチでは、推論中に浮動小数点演算を用いるため、浮動小数点演算よりも消費電力が少ない整数処理ユニットを十分に活用することはできない。さらに、微調整や校正のために量子化中のトレーニング/バリデーションデータを必要とするが、セキュリティ/プライバシの懸念により、このデータは利用できない可能性がある。これらの制約に対処するため、ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。特に,実行時統計が実データに類似した合成データを生成し,量子化時のモデルのキャリブレーションに利用する。次に、Q-ASRを用いてQuartzNet-15x5とJasperDR-10x5をトレーニングデータなしで定量化し、完全精度ベースラインモデルと比較して無視可能なWER変化を示す。 INT8のみの量子化では、最大0.29%の非常に控えめなWER劣化を観測し、T4 GPUでは最大2.44倍のスピードアップを達成する。さらに、Q-ASRは、WER劣化の少ない4倍を超える大きな圧縮速度を示す。

関連論文リスト

Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文参考訳（メタデータ） (2025-05-20T17:26:12Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
QArtSR: Quantization via Reverse-Module and Timestep-Retraining in One-Step Diffusion based Image Super-Resolution [96.98816416660534]
1段階拡散ベース画像超解像モデル(OSDSR)は、近年ますます優れた性能を示している。そこで我々は,QArtSR と呼ばれる OSDSR の逆加群による量子化と時間ステップの調整を効率的に行う方法を提案する。我々の4ビットおよび2ビットの量子化実験結果から、QArtSRは最近の先行比較法に対して優れた効果が得られることが示唆された。
論文参考訳（メタデータ） (2025-03-07T17:11:07Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
Qrazor: Reliable and Effortless 4-bit LLM Quantization by Significant Data Razoring [2.983583925806601]
QRazorは、ウェイト、アクティベーション、KVキャッシュの4ビット量子化をトランスフォーマーベース言語モデルで実現可能な、シンプルで効果的な量子化方式である。まず、8ビットまたは16ビットの整数を用いてデータを量子化し、絶対的な最大スケーリングで完全精度のモデルに近い精度で保存し、次に、重要なデータレイソーシング(SDR)技術を用いて4ビットに圧縮する。
論文参考訳（メタデータ） (2025-01-23T02:20:08Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。 Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文参考訳（メタデータ） (2024-05-28T06:50:58Z)
EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文参考訳（メタデータ） (2023-10-05T02:51:53Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文参考訳（メタデータ） (2023-05-24T19:45:56Z)
QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。 QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文参考訳（メタデータ） (2023-05-23T17:50:33Z)
A High-Performance Adaptive Quantization Approach for Edge CNN Applications [0.225596179391365]
最近の畳み込みニューラルネットワーク(CNN)開発は、様々なアプリケーションに対する最先端のモデル精度を推し進めている。精度の向上は、かなりのメモリ帯域幅とストレージ要求のコストが伴う。本稿では,偏りのあるアクティベーションの問題を解決するための適応型高性能量子化法を提案する。
論文参考訳（メタデータ） (2021-07-18T07:49:18Z)
Pareto-Optimal Quantized ResNet Is Mostly 4-bit [3.83996783171716]
我々はResNetをケーススタディとして、量子化が計算コスト品質トレードオフ曲線の推論に与える影響を調べる。その結果、bfloat16 ResNetの各モデルには、低コストで高精度な量子化モデルがあることが示唆された。我々は,4ビットResNet-50のImageNet上で,量子化を意識したトレーニングを行い,トップ1のeval精度77.09%を得た。
論文参考訳（メタデータ） (2021-05-07T23:28:37Z)
HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。 HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文参考訳（メタデータ） (2020-11-20T23:51:43Z)
Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文参考訳（メタデータ） (2020-02-03T04:11:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。