論文の概要: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2407.01257v3
- Date: Thu, 17 Oct 2024 16:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:15:59.131106
- Title: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
- Title(参考訳): uDistil-Whisper:低データレジームにおける知識蒸留のためのラベルフリーデータフィルタリング
- Authors: Abdul Waheed, Karima Kadaoui, Bhiksha Raj, Muhammad Abdul-Mageed,
- Abstract要約: ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを示す。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25~50%向上しています。
- 参考スコア(独自算出の注目度): 34.947522647009436
- License:
- Abstract: Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth labels to compare and filter low-quality examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distill models in low-resource settings. To address this challenge, we propose a distillation framework that does not require any labeled data. Through experimentation, we show that our best distilled models outperform the teacher model by 5-7 points in terms of WER compared to those without filtering and are on par with or perform better than similar supervised data filtering setups. When we scale the data, our models significantly outperform all zero-shot and supervised models. We demonstrate that it is possible to distill large Whisper models into relatively small ones without using any labeled data. Our distilled models are also 25-50\% more compute- and memory-efficient while maintaining performance equal to or better than that of the teacher model.
- Abstract(参考訳): 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。
これにより、小型で効率的で専用のモデルが得られる。
しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。
このステップでは、プロセス全体を監督する低品質な例を比較、フィルタリングするために、基礎的な真理ラベルが必要です。
それに加えて、蒸留プロセスには大量のデータが必要であるため、低リソース環境でのモデルの蒸留能力が制限される。
この課題に対処するために,ラベル付きデータを必要としない蒸留フレームワークを提案する。
実験により, 教師モデルでは, WER と比較して, 教師モデルよりも5~7ポイント優れており, 類似の教師付きデータフィルタリング装置と同等あるいは同等であることがわかった。
データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。
ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを実証した。
また, 蒸留モデルでは, 教師モデルと同等以上の性能を維持しながら, 計算効率とメモリ効率が25~50%向上した。
関連論文リスト
- Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。
教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文 参考訳(メタデータ) (2024-11-04T17:11:14Z) - Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文 参考訳(メタデータ) (2024-06-05T11:01:42Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。