論文の概要: DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.10788v2
- Date: Sun, 29 Sep 2024 05:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:03.003981
- Title: DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech Recognition
- Title(参考訳): DQ-Whisper: 効率的な多言語音声認識のための共同蒸留と量子化
- Authors: Hang Shao, Bei Liu, Wei Wang, Xun Gong, Yanmin Qian,
- Abstract要約: 効率的な推論のためにWhisperを圧縮する新しい共同蒸留・量子化フレームワークを提案する。
モデルサイズの最大5.18倍の削減は、限界性能劣化によって達成される。
- 参考スコア(独自算出の注目度): 46.019298534344834
- License:
- Abstract: As a popular multilingual and multitask pre-trained speech model, Whisper has the problem of curse of multilinguality. To enhance multilingual capabilities in small Whisper models, we propose DQ-Whisper, a novel joint distillation and quantization framework to compress Whisper for efficient inference. Firstly, we propose a novel dynamic matching distillation strategy. Then, a quantization-aware distillation framework is introduced to integrate quantization with distillation. Experimental results on various multilingual datasets show that our suggested distillation approach can effectively enhance the multilingual capabilities of small Whisper models without increasing computational costs. Up to 5.18x reduction in model size is achieved with marginal performance degradation. In addition, quantization is compatible with distillation, which can result in a higher compression rate.
- Abstract(参考訳): マルチリンガルおよびマルチタスク事前訓練された音声モデルとして、Whisperはマルチリンガル性の呪いの問題を抱えている。
そこで我々は,Whisperを効率よく推算するために,Whisperを圧縮する新しい共同蒸留・量子化フレームワークであるDQ-Whisperを提案する。
まず,新しいダイナミックマッチング蒸留法を提案する。
次に, 定量化対応蒸留フレームワークを導入し, 定量化と蒸留を統合する。
種々の多言語データセットに対する実験結果から,提案した蒸留手法は,計算コストを増大させることなく,小型Whisperモデルの多言語能力を効果的に向上させることができることが示された。
モデルサイズの最大5.18倍削減は、限界性能劣化によって達成される。
さらに、量子化は蒸留と互換性があり、より高い圧縮率をもたらす可能性がある。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。
提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。
提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-05-25T02:16:32Z) - Multilingual Word Error Rate Estimation: e-WER3 [11.746833714322154]
本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しいフレームワークeWER3を提案する。
提案した多言語モデルは,Pearson相関係数(PCC)の絶対9%増加により,従来の単言語単語誤り率推定法(eWER2)より優れていることを示す。
論文 参考訳(メタデータ) (2023-04-02T23:08:11Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。