論文の概要: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling
- arxiv url: http://arxiv.org/abs/2407.01257v2
- Date: Wed, 3 Jul 2024 09:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 12:55:43.611301
- Title: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling
- Title(参考訳): uDistil-Whisper:大規模擬似ラベリングによる知識蒸留のためのラベルフリーデータフィルタリング
- Authors: Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed,
- Abstract要約: ラベル付きデータを使わずに比較的小さなモデルにWhisperモデルを蒸留可能であることを示す。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算とメモリ効率が25~50%向上しています。
- 参考スコア(独自算出の注目度): 16.655022975392992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth to compare and filter bad examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distil models in low-resource settings. To address this challenge, we propose an unsupervised or label-free framework for distillation, thus eliminating the requirement for labeled data altogether. Through experimentation, we show that our best-distilled models outperform the teacher model by 5-7 points in terms of WER. Additionally, our models are on par with or better than similar supervised data filtering setup. When we scale the data, our models significantly outperform all zero-shot and supervised models. We demonstrate that it is possible to distill large Whisper models into relatively small models without using any labeled data. Our distilled models are 25-50\% more compute and memory efficient while maintaining performance equal to or better than the teacher model.
- Abstract(参考訳): 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。
これにより、小型で効率的で専用のモデルが得られる。
しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。
このステップでは、プロセス全体を監督する悪い例を比較、フィルタリングするために、基礎的な真実が必要です。
それに加えて、蒸留プロセスは大量のデータを必要とするため、低リソース環境でモデルを消耗する能力は制限される。
この課題に対処するため、蒸留のための教師なしまたはラベルなしのフレームワークを提案し、ラベル付きデータの要求を完全に排除する。
実験の結果,WERでは教師モデルよりも5~7ポイント優れていたことがわかった。
さらに、私たちのモデルは、同様の教師付きデータフィルタリング設定と同等かそれ以上です。
データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。
ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを実証した。
我々の蒸留モデルは,教師モデルと同等以上の性能を維持しながら,25~50%の計算とメモリ効率が向上した。
関連論文リスト
- Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。
教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文 参考訳(メタデータ) (2024-11-04T17:11:14Z) - Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文 参考訳(メタデータ) (2024-06-05T11:01:42Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。