論文の概要: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2407.01257v4
- Date: Mon, 10 Feb 2025 06:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:24:27.587255
- Title: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes
- Title(参考訳): uDistil-Whisper:低データレジームにおける知識蒸留のためのラベルフリーデータフィルタリング
- Authors: Abdul Waheed, Karima Kadaoui, Bhiksha Raj, Muhammad Abdul-Mageed,
- Abstract要約: We show that best-distilled models are outperform the teacher model by 5-7 WER points and are on well as or outperform similar supervised data filtering setups。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25~50%向上しています。
- 参考スコア(独自算出の注目度): 34.947522647009436
- License:
- Abstract: Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50%. This results in small, efficient, and dedicated models. However, a critical step of distillation using pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth labels to compare with and filter low-quality examples, making the process dependent on human labels. Additionally, the distillation process requires a large amount of data thereby limiting its applicability in low-resource settings. To address this, we propose a distillation framework that does not require any labeled data. Through experimentation, we show that our best-distilled models outperform the teacher model by 5-7 WER points and are on par with or outperform similar supervised data filtering setups. When scaling the data, our models significantly outperform all zero-shot and supervised models. Our models are also 25-50% more compute- and memory-efficient while maintaining performance equal to or better than that of the teacher model. For more details about our models, dataset, and other resources, please visit our GitHub page: https://github.com/UBC-NLP/uDistilWhisper.
- Abstract(参考訳): 擬似ラベルを用いた小さなモデルにウィスパーの知識を蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。
これにより、小型で効率的で専用のモデルが得られる。
しかし、擬似ラベルを用いた蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。
このステップでは、人間のラベルに依存するプロセスとして、低品質な例を比較、フィルタリングするために、基礎的な真理ラベルが必要です。
さらに、蒸留プロセスには大量のデータが必要であるため、低リソース環境での適用性が制限される。
そこで本研究では,ラベル付きデータを必要としない蒸留フレームワークを提案する。
実験により、最も蒸留度の高いモデルは教師モデルよりも5~7 WERポイント優れており、類似した教師付きデータフィルタリング装置と同等または同等であることを示す。
データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25~50%向上しています。
モデル、データセット、その他のリソースの詳細については、GitHubのページを参照してください。
関連論文リスト
- Fine-tuning is Not Fine: Mitigating Backdoor Attacks in GNNs with Limited Clean Data [51.745219224707384]
グラフニューラルネットワーク(GNN)は,メッセージパッシング機構を通じて,優れたパフォーマンスを実現している。
最近の研究は、GNNのバックドア攻撃に対する脆弱性を強調している。
本稿では,実践的なバックドア緩和フレームワークである GraphNAD を提案する。
論文 参考訳(メタデータ) (2025-01-10T10:16:35Z) - Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文 参考訳(メタデータ) (2024-06-05T11:01:42Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。
元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文 参考訳(メタデータ) (2023-03-07T19:12:31Z) - Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。
テキスト分類のための新しいデータ蒸留法を開発した。
元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文 参考訳(メタデータ) (2021-04-17T04:54:54Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。