論文の概要: Enhancing Quantised End-to-End ASR Models via Personalisation
- arxiv url: http://arxiv.org/abs/2309.09136v1
- Date: Sun, 17 Sep 2023 02:35:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:10:43.021322
- Title: Enhancing Quantised End-to-End ASR Models via Personalisation
- Title(参考訳): パーソナライズによる量子エンドツーエンドASRモデルの強化
- Authors: Qiuming Zhao and Guangzhi Sun and Chao Zhang and Mingxing Xu and
Thomas Fang Zheng
- Abstract要約: 量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。
PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
- 参考スコア(独自算出の注目度): 12.971231464928806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent end-to-end automatic speech recognition (ASR) models have become
increasingly larger, making them particularly challenging to be deployed on
resource-constrained devices. Model quantisation is an effective solution that
sometimes causes the word error rate (WER) to increase. In this paper, a novel
strategy of personalisation for a quantised model (PQM) is proposed, which
combines speaker adaptive training (SAT) with model quantisation to improve the
performance of heavily compressed models. Specifically, PQM uses a 4-bit
NormalFloat Quantisation (NF4) approach for model quantisation and low-rank
adaptation (LoRA) for SAT. Experiments have been performed on the LibriSpeech
and the TED-LIUM 3 corpora. Remarkably, with a 7x reduction in model size and
1% additional speaker-specific parameters, 15.1% and 23.3% relative WER
reductions were achieved on quantised Whisper and Conformer-based
attention-based encoder-decoder ASR models respectively, comparing to the
original full precision models.
- Abstract(参考訳): 最近のエンドツーエンド自動音声認識(ASR)モデルはますます大きくなり、リソース制約のあるデバイスに展開することが特に困難になっている。
モデル量子化は、時に単語誤り率(wer)を増加させる効果的な解である。
本稿では,重圧縮モデルの性能を向上させるために,話者適応訓練(sat)とモデル量子化を組み合わせた量子化モデル(pqm)のための新しいパーソナライズ戦略を提案する。
特に、pqmはsatのモデル量子化と低ランク適応(lora)のために4ビット正規フロア量子化(nf4)アプローチを用いる。
LibriSpeechとTED-Lium 3コーパスで実験が行われた。
注目すべきは、モデルサイズが7倍に、スピーカー固有のパラメータが1%追加され、15.1%と23.3%の相対的なWER削減が、それぞれ量子化ウィスパーとコンバータベースの注意ベースのエンコーダデコーダASRモデルで達成されたことである。
関連論文リスト
- PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models [8.99127212785609]
この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。
本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。
PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
論文 参考訳(メタデータ) (2024-09-20T20:52:56Z) - A Model for Every User and Budget: Label-Free and Personalized
Mixed-Precision Quantization [23.818922559567994]
ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。
MyQASRは、微調整なしで任意のメモリ要件の下で、多様なユーザ向けに調整された量子化スキームを生成する。
大規模なASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
論文 参考訳(メタデータ) (2023-07-24T10:03:28Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z) - A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes [54.83802872236367]
本稿では,異なる配置シナリオのモデルを統一した動的カスケードエンコーダ自動音声認識(ASR)モデルを提案する。
提案モデルでは, ベースラインのカスケードエンコーダモデルと比較して30%小さく, 消費電力を33%削減する。
大、中、小のモデルを統一した3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を達成する。
論文 参考訳(メタデータ) (2022-04-13T04:15:51Z) - 4-bit Conformer with Native Quantization Aware Training for Speech
Recognition [13.997832593421577]
そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。
提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。
大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
論文 参考訳(メタデータ) (2022-03-29T23:57:15Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - An Efficient Deep Learning Model for Automatic Modulation Recognition
Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。
我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文 参考訳(メタデータ) (2021-10-11T03:28:28Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。