論文の概要: RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models
- arxiv url: http://arxiv.org/abs/2305.15536v1
- Date: Wed, 24 May 2023 19:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 18:50:36.339145
- Title: RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models
- Title(参考訳): RAND:量子Seq2seqモデルのロバスト性はノームを意識している
- Authors: David Qiu, David Rim, Shaojin Ding, Oleg Rybakov, Yanzhang He
- Abstract要約: モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
- 参考スコア(独自算出の注目度): 14.07649230604283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid increase in the size of neural networks, model compression has
become an important area of research. Quantization is an effective technique at
decreasing the model size, memory access, and compute load of large models.
Despite recent advances in quantization aware training (QAT) technique, most
papers present evaluations that are focused on computer vision tasks, which
have different training dynamics compared to sequence tasks. In this paper, we
first benchmark the impact of popular techniques such as straight through
estimator, pseudo-quantization noise, learnable scale parameter, clipping, etc.
on 4-bit seq2seq models across a suite of speech recognition datasets ranging
from 1,000 hours to 1 million hours, as well as one machine translation dataset
to illustrate its applicability outside of speech.
Through the experiments, we report that noise based QAT suffers when there is
insufficient regularization signal flowing back to the quantization scale. We
propose low complexity changes to the QAT process to improve model accuracy
(outperforming popular learnable scale and clipping methods). With the improved
accuracy, it opens up the possibility to exploit some of the other benefits of
noise based QAT: 1) training a single model that performs well in mixed
precision mode and 2) improved generalization on long form speech recognition.
- Abstract(参考訳): ニューラルネットワークのサイズが急速に大きくなるにつれ、モデル圧縮は研究の重要な領域となっている。
量子化は、大規模モデルのモデルサイズ、メモリアクセス、計算負荷を減らす効果的な手法である。
量子化認識訓練(qat)技術の最近の進歩にもかかわらず、ほとんどの論文は、シーケンスタスクと異なるトレーニングダイナミクスを持つコンピュータビジョンタスクに焦点を当てた評価を示す。
本稿では,1,000時間から100万時間にわたる音声認識データセットのセット全体にわたる4ビットseq2seqモデルに対する,ストレートスルー推定,擬似量子化雑音,学習可能なスケールパラメータ,クリップングなどの一般的な手法の影響を,一台の機械翻訳データセットで評価し,音声以外の応用性について述べる。
実験により,量子化スケールに帰還する正規化信号が不十分な場合,ノイズに基づくQATが苦しむことを報告した。
そこで本研究では,QATプロセスの複雑さを低減し,モデル精度を向上させる手法を提案する。
精度の向上により、ノイズベースのQATの他の利点を活用できるようになる。
1)混合精度モードでよく機能する単一のモデルを訓練し、
2)長文音声認識における一般化の改善
関連論文リスト
- EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。
ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。
本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文 参考訳(メタデータ) (2024-11-17T11:06:36Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。
GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。
ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。