論文の概要: Whisper-KDQ: A Lightweight Whisper via Guided Knowledge Distillation and
Quantization for Efficient ASR
- arxiv url: http://arxiv.org/abs/2305.10788v1
- Date: Thu, 18 May 2023 08:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:12:44.700458
- Title: Whisper-KDQ: A Lightweight Whisper via Guided Knowledge Distillation and
Quantization for Efficient ASR
- Title(参考訳): Whisper-KDQ:効率的なASRのためのガイド付き知識蒸留と量子化による軽量Whisper
- Authors: Hang Shao, Wei Wang, Bei Liu, Xun Gong, Haoyu Wang, Yanmin Qian
- Abstract要約: Whisperのような事前訓練された音声認識モデルでは、音声認識タスクの性能が大幅に向上した。
予測を高速化し,性能を維持しながらモデルサイズの削減を図るため,大規模な事前学習モデルWhisperのための新しい知識蒸留と定量化法を提案する。
- 参考スコア(独自算出の注目度): 41.907081660949835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the rapid development of computing hardware resources and the dramatic
growth of data, pre-trained models in speech recognition, such as Whisper, have
significantly improved the performance of speech recognition tasks. However,
these models usually have a high computational overhead, making it difficult to
execute effectively on resource-constrained devices. To speed up inference and
reduce model size while maintaining performance, we propose a novel guided
knowledge distillation and quantization for large pre-trained model Whisper.
The student model selects distillation and quantization layers based on
quantization loss and distillation loss, respectively. We compressed
$\text{Whisper}_\text{small}$ to $\text{Whisper}_\text{base}$ and
$\text{Whisper}_\text{tiny}$ levels, making $\text{Whisper}_\text{small}$
5.18x/10.48x smaller, respectively. Moreover, compared to the original
$\text{Whisper}_\text{base}$ and $\text{Whisper}_\text{tiny}$, there is also a
relative character error rate~(CER) reduction of 11.3% and 14.0% for the new
compressed model respectively.
- Abstract(参考訳): ハードウェア資源の急速な発展とデータの劇的な成長により、whisperのような音声認識における事前学習されたモデルは音声認識タスクの性能を大幅に向上させた。
しかしながら、これらのモデルは通常高い計算オーバーヘッドを持ち、リソース制約されたデバイス上で効果的に実行することは困難である。
予測を高速化し,性能を維持しながらモデルサイズを削減するため,大規模な事前学習モデルWhisperのための新しい知識蒸留と定量化を提案する。
学生モデルは,それぞれ定量化損失と蒸留損失に基づいて蒸留層と量子化層を選択する。
我々は$\text{Whisper}_\text{small}$を$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$レベルに圧縮し、$\text{Whisper}_\text{small}$ 5.18x/10.48x小さくした。
さらに、オリジナルの$\text{Whisper}_\text{base}$と$\text{Whisper}_\text{tiny}$と比較して、新しい圧縮モデルでは、それぞれ11.3%と14.0%の相対的な文字エラー率~(CER)削減がある。
関連論文リスト
- Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection [14.989929439744172]
我々は、Whisperのクロスアテンションに埋め込まれた時間アライメントを利用して自動回帰デコーディングをガイドするSimul-Whisperを紹介する。
複数の言語とWhisperアーキテクチャの実験により、Simul-Whisperは1秒のチャンクサイズで平均1.46%の絶対単語誤り率を達成した。
論文 参考訳(メタデータ) (2024-06-14T14:07:26Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Knowledge Distillation of Russian Language Models with Reduction of
Vocabulary [0.1092387707389144]
トランスフォーマー言語モデルは、自然言語処理タスクの大部分のコアコンポーネントとして機能する。
この分野の既存の手法は主に、埋め込み/隠された表現の層数や次元を減らすことに焦点を当てている。
語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T21:56:57Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids [13.369813069254132]
モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
論文 参考訳(メタデータ) (2020-05-20T20:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。