Fugu-MT 論文翻訳(概要): Enhancing Quantised End-to-End ASR Models via Personalisation

論文の概要: Enhancing Quantised End-to-End ASR Models via Personalisation

arxiv url: http://arxiv.org/abs/2309.09136v1
Date: Sun, 17 Sep 2023 02:35:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 17:10:43.021322
Title: Enhancing Quantised End-to-End ASR Models via Personalisation
Title（参考訳）: パーソナライズによる量子エンドツーエンドASRモデルの強化
Authors: Qiuming Zhao and Guangzhi Sun and Chao Zhang and Mingxing Xu and Thomas Fang Zheng
Abstract要約: 量子化モデル(PQM)のための新しいパーソナライズ戦略を提案する。 PQMは 4-bit NormalFloat Quantisation (NF4) アプローチをモデル量子化とSATのローランク適応(LoRA)に用いている。 LibriSpeechとTED-Lium 3コーパスで実験が行われた。
参考スコア（独自算出の注目度）: 12.971231464928806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent end-to-end automatic speech recognition (ASR) models have become increasingly larger, making them particularly challenging to be deployed on resource-constrained devices. Model quantisation is an effective solution that sometimes causes the word error rate (WER) to increase. In this paper, a novel strategy of personalisation for a quantised model (PQM) is proposed, which combines speaker adaptive training (SAT) with model quantisation to improve the performance of heavily compressed models. Specifically, PQM uses a 4-bit NormalFloat Quantisation (NF4) approach for model quantisation and low-rank adaptation (LoRA) for SAT. Experiments have been performed on the LibriSpeech and the TED-LIUM 3 corpora. Remarkably, with a 7x reduction in model size and 1% additional speaker-specific parameters, 15.1% and 23.3% relative WER reductions were achieved on quantised Whisper and Conformer-based attention-based encoder-decoder ASR models respectively, comparing to the original full precision models.
Abstract（参考訳）: 最近のエンドツーエンド自動音声認識(ASR)モデルはますます大きくなり、リソース制約のあるデバイスに展開することが特に困難になっている。モデル量子化は、時に単語誤り率(wer)を増加させる効果的な解である。本稿では,重圧縮モデルの性能を向上させるために,話者適応訓練(sat)とモデル量子化を組み合わせた量子化モデル(pqm)のための新しいパーソナライズ戦略を提案する。特に、pqmはsatのモデル量子化と低ランク適応(lora)のために4ビット正規フロア量子化(nf4)アプローチを用いる。 LibriSpeechとTED-Lium 3コーパスで実験が行われた。注目すべきは、モデルサイズが7倍に、スピーカー固有のパラメータが1%追加され、15.1%と23.3%の相対的なWER削減が、それぞれ量子化ウィスパーとコンバータベースの注意ベースのエンコーダデコーダASRモデルで達成されたことである。

関連論文リスト

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
Improving Quantization with Post-Training Model Expansion [0.35377121774178694]
ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
論文参考訳（メタデータ） (2025-03-21T19:56:59Z)
PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models [8.99127212785609]
この研究は、音声拡散モデル(ADM)を定量化する新しいフレームワークであるPTQ4ADMを導入している。本研究の主な貢献は,(1)カバレッジ駆動型プロンプト拡張法,(2)テキスト条件ADMのアクティベーション対応校正セット生成アルゴリズムである。 PTQ4ADMは、完全精度モデルに匹敵する合成品質の指標を達成しつつ、モデルサイズを最大70%削減する能力を示した。
論文参考訳（メタデータ） (2024-09-20T20:52:56Z)
A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization [23.818922559567994]
ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。 MyQASRは、微調整なしで任意のメモリ要件の下で、多様なユーザ向けに調整された量子化スキームを生成する。大規模なASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
論文参考訳（メタデータ） (2023-07-24T10:03:28Z)
Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。 Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文参考訳（メタデータ） (2022-06-02T06:06:29Z)
A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes [54.83802872236367]
本稿では,異なる配置シナリオのモデルを統一した動的カスケードエンコーダ自動音声認識(ASR)モデルを提案する。提案モデルでは, ベースラインのカスケードエンコーダモデルと比較して30%小さく, 消費電力を33%削減する。大、中、小のモデルを統一した3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を達成する。
論文参考訳（メタデータ） (2022-04-13T04:15:51Z)
4-bit Conformer with Native Quantization Aware Training for Speech Recognition [13.997832593421577]
そこで本研究では,ネイティブ整数演算を応用し,学習と推論の両方を効果的に最適化する,ネイティブ量子化を考慮した4ビットASRモデルを提案する。提案した量子化手法を評価するために,最先端のコンフォーマーベースASRモデルに関する2つの実験を行った。大規模データセットでトレーニングされた実用的なASRシステムにおいて、4ビット量子化が実現可能であることを初めて調査し明らかにした。
論文参考訳（メタデータ） (2022-03-29T23:57:15Z)
A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文参考訳（メタデータ） (2022-03-01T20:17:31Z)
An Efficient Deep Learning Model for Automatic Modulation Recognition Based on Parameter Estimation and Transformation [3.3941243094128035]
本稿では,位相パラメータ推定と変換に基づく効率的なDL-AMRモデルを提案する。我々のモデルは、類似の認識精度を持つベンチマークモデルよりも、トレーニング時間とテスト時間で競争力がある。
論文参考訳（メタデータ） (2021-10-11T03:28:28Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文参考訳（メタデータ） (2020-11-09T05:22:57Z)
Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文参考訳（メタデータ） (2020-03-17T22:01:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。