論文の概要: DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.10788v2
- Date: Sun, 29 Sep 2024 05:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 21:59:03.003981
- Title: DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech Recognition
- Title(参考訳): DQ-Whisper: 効率的な多言語音声認識のための共同蒸留と量子化
- Authors: Hang Shao, Bei Liu, Wei Wang, Xun Gong, Yanmin Qian,
- Abstract要約: 効率的な推論のためにWhisperを圧縮する新しい共同蒸留・量子化フレームワークを提案する。
モデルサイズの最大5.18倍の削減は、限界性能劣化によって達成される。
- 参考スコア(独自算出の注目度): 46.019298534344834
- License:
- Abstract: As a popular multilingual and multitask pre-trained speech model, Whisper has the problem of curse of multilinguality. To enhance multilingual capabilities in small Whisper models, we propose DQ-Whisper, a novel joint distillation and quantization framework to compress Whisper for efficient inference. Firstly, we propose a novel dynamic matching distillation strategy. Then, a quantization-aware distillation framework is introduced to integrate quantization with distillation. Experimental results on various multilingual datasets show that our suggested distillation approach can effectively enhance the multilingual capabilities of small Whisper models without increasing computational costs. Up to 5.18x reduction in model size is achieved with marginal performance degradation. In addition, quantization is compatible with distillation, which can result in a higher compression rate.
- Abstract(参考訳): マルチリンガルおよびマルチタスク事前訓練された音声モデルとして、Whisperはマルチリンガル性の呪いの問題を抱えている。
そこで我々は,Whisperを効率よく推算するために,Whisperを圧縮する新しい共同蒸留・量子化フレームワークであるDQ-Whisperを提案する。
まず,新しいダイナミックマッチング蒸留法を提案する。
次に, 定量化対応蒸留フレームワークを導入し, 定量化と蒸留を統合する。
種々の多言語データセットに対する実験結果から,提案した蒸留手法は,計算コストを増大させることなく,小型Whisperモデルの多言語能力を効果的に向上させることができることが示された。
モデルサイズの最大5.18倍削減は、限界性能劣化によって達成される。
さらに、量子化は蒸留と互換性があり、より高い圧縮率をもたらす可能性がある。
関連論文リスト
- Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [14.989929439744172]
我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:07:26Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary [0.1092387707389144]
トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。
この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T21:56:57Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids [13.369813069254132]
モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
論文 参考訳(メタデータ) (2020-05-20T20:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。