論文の概要: FastWhisper: Adaptive Self-knowledge Distillation for Real-time Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.19919v1
- Date: Thu, 08 Jan 2026 08:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.53589
- Title: FastWhisper: Adaptive Self-knowledge Distillation for Real-time Automatic Speech Recognition
- Title(参考訳): FastWhisper: リアルタイム音声認識のための適応型自己知識蒸留
- Authors: Junseok Lee, Nahoon Kim, Sangyong Lee, Chang-Jae Chun,
- Abstract要約: 本稿では,教師モデルの依存度を低減し,自己学習能力を向上させる適応型自己知識蒸留法を提案する。
FastWhisperは、教師モデルWhisperよりも1.07%低い単語エラー率を実現し、相対的な推論時間は5倍速くなった。
- 参考スコア(独自算出の注目度): 3.489980912925397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation is one of the most effective methods for model compression. Previous studies have focused on the student model effectively training the predictive distribution of the teacher model. However, during training, the student model may inherit the shortcomings of the teacher model, which can lead to a decline in generalization capacity. To mitigate this issue, we propose adaptive self-knowledge distillation (ASKD), which dynamically reduces the dependence of the teacher model to improve the self-training capacity, and performs the self-knowledge distillation method to improve the generalization capacity of the student model. We further distill the Whisper model into a smaller variant, called FastWhisper. In our post-training setting, FastWhisper achieved a word error rate of 1.07% lower than the teacher model Whisper, and its relative inference time was 5 times faster.
- Abstract(参考訳): 知識蒸留はモデル圧縮の最も効果的な方法の1つである。
従来の研究では、教師モデルの予測分布を効果的に訓練する学生モデルに焦点が当てられていた。
しかし,学生モデルは,教師モデルの欠点を継承し,一般化能力の低下につながる可能性がある。
この問題を軽減するため,教師モデルの依存度を動的に低減し,自己学習能力を向上させる適応型自己知識蒸留法(ASKD)を提案し,学生モデルの一般化能力を向上させる自己知識蒸留法を実行する。
我々はさらにWhisperモデルをFastWhisperと呼ばれる小さな変種に蒸留する。
学習後,FastWhisperは教師モデルWhisperの単語誤り率1.07%を達成し,相対推定時間は5倍速かった。
関連論文リスト
- Towards a Smaller Student: Capacity Dynamic Distillation for Efficient
Image Retrieval [49.01637233471453]
従来の知識蒸留に基づく効率的な画像検索手法は,高速推論のための学生モデルとして軽量なネットワークを用いる。
本稿では,編集可能な表現能力を持つ学生モデルを構築するための容量動的蒸留フレームワークを提案する。
提案手法は,教師としてのResNet101を前提として,VeRi-776データセットなどの推論速度と精度が優れている。
論文 参考訳(メタデータ) (2023-03-16T11:09:22Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - Autoregressive Knowledge Distillation through Imitation Learning [70.12862707908769]
我々は,知識蒸留における模倣学習の観点から駆動される自己回帰モデルに対する圧縮手法を開発した。
本手法は,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムより一貫して優れている。
また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。
論文 参考訳(メタデータ) (2020-09-15T17:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。