論文の概要: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling
- arxiv url: http://arxiv.org/abs/2407.01257v1
- Date: Mon, 1 Jul 2024 13:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:39:54.699568
- Title: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling
- Title(参考訳): uDistil-Whisper:大規模擬似ラベリングによる知識蒸留のためのラベルフリーデータフィルタリング
- Authors: Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed,
- Abstract要約: ラベル付きデータを使わずに比較的小さなモデルにWhisperモデルを蒸留できることを示す。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算とメモリ効率が25~50%向上しています。
- 参考スコア(独自算出の注目度): 16.655022975392992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth to compare and filter bad examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distil models in low-resource settings. To address this challenge, we propose an unsupervised or label-free framework for distillation, thus eliminating the requirement for labeled data altogether. Through experimentation, we show that our best distilled models outperform the teacher model by 5-7 points in terms of WER. Additionally, our models are on par with or better than similar supervised data filtering setup. When we scale the data, our models significantly outperform all zero-shot and supervised models. In this work, we demonstrate that it's possible to distill large Whisper models into relatively small models without using any labeled data. As a result, our distilled models are 25-50\% more compute and memory efficient while maintaining performance equal to or better than the teacher model.
- Abstract(参考訳): 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。
これにより、小型で効率的で専用のモデルが得られる。
しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。
このステップでは、プロセス全体を監督する悪い例を比較、フィルタリングするために、基礎的な真実が必要です。
それに加えて、蒸留プロセスは大量のデータを必要とするため、低リソース環境でモデルを消耗する能力は制限される。
この課題に対処するため、蒸留のための教師なしまたはラベルなしのフレームワークを提案し、ラベル付きデータの要求を完全に排除する。
実験の結果,WERでは,最も蒸留度の高いモデルは教師モデルよりも5~7ポイント優れていた。
さらに、私たちのモデルは、同様の教師付きデータフィルタリング設定と同等かそれ以上です。
データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。
本研究では,大きなWhisperモデルをラベル付きデータを使わずに比較的小さなモデルに蒸留できることを実証する。
その結果, 蒸留モデルでは, 教師モデルと同等以上の性能を維持しつつ, 計算効率とメモリ効率が25~50%向上した。
関連論文リスト
- Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文 参考訳(メタデータ) (2024-06-05T11:01:42Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - Distill Gold from Massive Ores: Efficient Dataset Distillation via
Critical Samples Selection [101.78275454476311]
情報伝達の文脈内でデータセット蒸留タスクをモデル化する。
我々は、データユーティリティー推定器のファミリーと、最も価値のあるサンプルを利用する最適なデータ選択方法を導入し、検証する。
提案手法は, より大規模で異種なデータセットであっても, 蒸留アルゴリズムを一貫して強化する。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。