論文の概要: Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization
- arxiv url: http://arxiv.org/abs/2206.07882v1
- Date: Thu, 16 Jun 2022 02:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 14:54:00.901964
- Title: Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization
- Title(参考訳): エンドツーエンド4ビット量子化によるリカレントニューラルネットワークトランスデューサの高速化と言語モデル融合
- Authors: Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Swagath Venkataramani,
George Saon, Xiaodong Cui, Brian Kingsbury, Kailash Gopalakrishnan
- Abstract要約: 我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
- 参考スコア(独自算出の注目度): 35.198615417316056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We report on aggressive quantization strategies that greatly accelerate
inference of Recurrent Neural Network Transducers (RNN-T). We use a 4 bit
integer representation for both weights and activations and apply Quantization
Aware Training (QAT) to retrain the full model (acoustic encoder and language
model) and achieve near-iso-accuracy. We show that customized quantization
schemes that are tailored to the local properties of the network are essential
to achieve good performance while limiting the computational overhead of QAT.
Density ratio Language Model fusion has shown remarkable accuracy gains on
RNN-T workloads but it severely increases the computational cost of inference.
We show that our quantization strategies enable using large beam widths for
hypothesis search while achieving streaming-compatible runtimes and a full
model compression ratio of 7.6$\times$ compared to the full precision model.
Via hardware simulations, we estimate a 3.4$\times$ acceleration from FP16 to
INT4 for the end-to-end quantized RNN-T inclusive of LM fusion, resulting in a
Real Time Factor (RTF) of 0.06. On the NIST Hub5 2000, Hub5 2001, and RT-03
test sets, we retain most of the gains associated with LM fusion, improving the
average WER by $>$1.5%.
- Abstract(参考訳): 繰り返しニューラルネットワークトランスデューサ(rnn-t)の推論を大いに促進する積極的な量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、量子化アウェアトレーニング(QAT)を適用して、フルモデル(音響エンコーダと言語モデル)をトレーニングし、ほぼ同値の精度を達成する。
ネットワークの局所特性に合わせてカスタマイズされた量子化方式は,QATの計算オーバーヘッドを抑えつつ,優れた性能を実現するために不可欠であることを示す。
密度比言語モデル融合は、RNN-Tワークロードにおいて顕著な精度向上を示したが、推論の計算コストを大幅に向上させた。
提案手法は,大規模ビーム幅を仮説探索に利用し,ストリーミング対応ランタイムを実現し,完全精度モデルと比較して7.6$\times$のフルモデル圧縮率を示す。
ハードウェアシミュレーションにより、LM融合を含むエンドツーエンド量子化RNN-Tに対して、FP16からINT4への3.4$\times$加速度を推定し、実時間係数(RTF)が0.06となる。
NIST Hub5 2000、Hub5 2001、RT-03テストセットでは、LM融合に関連する利益のほとんどを保持し、平均的なWERを1.5%以上改善する。
関連論文リスト
- Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Design of High-Throughput Mixed-Precision CNN Accelerators on FPGA [0.0]
層単位での混合精度量子化により、設計空間を膨らませながらより効率的な結果が得られる。
本稿では,FPGAの限られたハードウェア資源を考慮した設計空間を効率的に探索する,詳細な定量的手法を提案する。
我々のハードウェアアクセラレーターは、レイヤーワイドおよびチャネルワイドの量子化CNNの効率的な実行を可能にする真の混合精度演算を実装している。
論文 参考訳(メタデータ) (2022-08-09T15:32:51Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - On the Tradeoff between Energy, Precision, and Accuracy in Federated
Quantized Neural Networks [68.52621234990728]
無線ネットワーク上でのフェデレーション学習(FL)は、精度、エネルギー効率、精度のバランスをとる必要がある。
本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現できる量子化FLフレームワークを提案する。
我々のフレームワークは標準的なFLモデルと比較してエネルギー消費量を最大53%削減できる。
論文 参考訳(メタデータ) (2021-11-15T17:00:03Z) - 4-bit Quantization of LSTM-based Speech Recognition Models [40.614677908909705]
LSTMに基づく大規模アーキテクチャの2つのファミリにおける重みとアクティベーションの積極的低精度表現の影響について検討した。
量子化器と初期化器の適切な選択により、最小精度の損失が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T00:59:52Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Activation Density based Mixed-Precision Quantization for Energy
Efficient Neural Networks [2.666640112616559]
ニューラルネットワークモデルのイントレーニング量子化手法を提案する。
本手法は,混合精度モデルの学習中に各層に対するビット幅を計算する。
VGG19/ResNet18アーキテクチャ上で、CIFAR-10、CIFAR-100、TinyImagenetなどのベンチマークデータセットの実験を行います。
論文 参考訳(メタデータ) (2021-01-12T09:01:44Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。