論文の概要: Whisper-KDQ: A Lightweight Whisper via Guided Knowledge Distillation and
Quantization for Efficient ASR
- arxiv url: http://arxiv.org/abs/2305.10788v1
- Date: Thu, 18 May 2023 08:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:12:44.700458
- Title: Whisper-KDQ: A Lightweight Whisper via Guided Knowledge Distillation and
Quantization for Efficient ASR
- Title(参考訳): Whisper-KDQ:効率的なASRのためのガイド付き知識蒸留と量子化による軽量Whisper
- Authors: Hang Shao, Wei Wang, Bei Liu, Xun Gong, Haoyu Wang, Yanmin Qian
- Abstract要約: Whisperのような事前訓練された音声認識モデルでは、音声認識タスクの性能が大幅に向上した。
予測を高速化し,性能を維持しながらモデルサイズの削減を図るため,大規模な事前学習モデルWhisperのための新しい知識蒸留と定量化法を提案する。
- 参考スコア(独自算出の注目度): 41.907081660949835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid development of computing hardware resources and the dramatic
growth of data, pre-trained models in speech recognition, such as Whisper, have
significantly improved the performance of speech recognition tasks. However,
these models usually have a high computational overhead, making it difficult to
execute effectively on resource-constrained devices. To speed up inference and
reduce model size while maintaining performance, we propose a novel guided
knowledge distillation and quantization for large pre-trained model Whisper.
The student model selects distillation and quantization layers based on
quantization loss and distillation loss, respectively. We compressed
$\text{Whisper}_\text{small}$ to $\text{Whisper}_\text{base}$ and
$\text{Whisper}_\text{tiny}$ levels, making $\text{Whisper}_\text{small}$
5.18x/10.48x smaller, respectively. Moreover, compared to the original
$\text{Whisper}_\text{base}$ and $\text{Whisper}_\text{tiny}$, there is also a
relative character error rate~(CER) reduction of 11.3% and 14.0% for the new
compressed model respectively.
- Abstract(参考訳): ハードウェア資源の急速な発展とデータの劇的な成長により、whisperのような音声認識における事前学習されたモデルは音声認識タスクの性能を大幅に向上させた。
しかしながら、これらのモデルは通常高い計算オーバーヘッドを持ち、リソース制約されたデバイス上で効果的に実行することは困難である。
予測を高速化し,性能を維持しながらモデルサイズを削減するため,大規模な事前学習モデルWhisperのための新しい知識蒸留と定量化を提案する。
学生モデルは,それぞれ定量化損失と蒸留損失に基づいて蒸留層と量子化層を選択する。
我々は$\text{Whisper}_\text{small}$を$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$レベルに圧縮し、$\text{Whisper}_\text{small}$ 5.18x/10.48x小さくした。
さらに、オリジナルの$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$と比較して、新しい圧縮モデルでは、それぞれ11.3%と14.0%の相対的な文字エラー率~(CER)削減がある。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。
提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。
提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-05-25T02:16:32Z) - Multilingual Word Error Rate Estimation: e-WER3 [11.746833714322154]
本稿では,単語誤り率を推定するために,音響および語彙表現を共同で訓練した新しいフレームワークeWER3を提案する。
提案した多言語モデルは,Pearson相関係数(PCC)の絶対9%増加により,従来の単言語単語誤り率推定法(eWER2)より優れていることを示す。
論文 参考訳(メタデータ) (2023-04-02T23:08:11Z) - Too Brittle To Touch: Comparing the Stability of Quantization and
Distillation Towards Developing Lightweight Low-Resource MT Models [12.670354498961492]
最先端の機械翻訳モデルは、しばしば低リソース言語のデータに適応することができる。
知識蒸留(Knowledge Distillation)は、競争力のある軽量モデルを開発するための一般的な技術である。
論文 参考訳(メタデータ) (2022-10-27T05:30:13Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。