Fugu-MT 論文翻訳(概要): uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling

論文の概要: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling

arxiv url: http://arxiv.org/abs/2407.01257v1
Date: Mon, 1 Jul 2024 13:07:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:39:54.699568
Title: uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation via Large-Scale Pseudo Labelling
Title（参考訳）: uDistil-Whisper:大規模擬似ラベリングによる知識蒸留のためのラベルフリーデータフィルタリング
Authors: Abdul Waheed, Karima Kadaoui, Muhammad Abdul-Mageed,
Abstract要約: ラベル付きデータを使わずに比較的小さなモデルにWhisperモデルを蒸留できることを示す。私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算とメモリ効率が25～50%向上しています。
参考スコア（独自算出の注目度）: 16.655022975392992
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work on distilling Whisper's knowledge into small models using pseudo-labels shows promising performance while reducing the size by up to 50\%. This results in small, efficient, and dedicated models. However, a critical step of distillation from pseudo-labels involves filtering high-quality predictions and using only those during training. This step requires ground truth to compare and filter bad examples making the whole process supervised. In addition to that, the distillation process requires a large amount of data thereby limiting the ability to distil models in low-resource settings. To address this challenge, we propose an unsupervised or label-free framework for distillation, thus eliminating the requirement for labeled data altogether. Through experimentation, we show that our best distilled models outperform the teacher model by 5-7 points in terms of WER. Additionally, our models are on par with or better than similar supervised data filtering setup. When we scale the data, our models significantly outperform all zero-shot and supervised models. In this work, we demonstrate that it's possible to distill large Whisper models into relatively small models without using any labeled data. As a result, our distilled models are 25-50\% more compute and memory efficient while maintaining performance equal to or better than the teacher model.
Abstract（参考訳）: 擬似ラベルを用いたWhisperの知識を小型モデルに蒸留する最近の研究は、そのサイズを最大50%減らすとともに、有望な性能を示している。これにより、小型で効率的で専用のモデルが得られる。しかし、擬似ラベルからの蒸留の重要なステップは、高品質な予測をフィルタリングし、訓練中にのみ使用することである。このステップでは、プロセス全体を監督する悪い例を比較、フィルタリングするために、基礎的な真実が必要です。それに加えて、蒸留プロセスは大量のデータを必要とするため、低リソース環境でモデルを消耗する能力は制限される。この課題に対処するため、蒸留のための教師なしまたはラベルなしのフレームワークを提案し、ラベル付きデータの要求を完全に排除する。実験の結果,WERでは,最も蒸留度の高いモデルは教師モデルよりも5～7ポイント優れていた。さらに、私たちのモデルは、同様の教師付きデータフィルタリング設定と同等かそれ以上です。データをスケールする場合、当社のモデルはゼロショットモデルや教師付きモデルよりも大幅に優れています。本研究では,大きなWhisperモデルをラベル付きデータを使わずに比較的小さなモデルに蒸留できることを実証する。その結果, 蒸留モデルでは, 教師モデルと同等以上の性能を維持しつつ, 計算効率とメモリ効率が25～50%向上した。

関連論文リスト

Extracting alignment data in open models [50.81383232591576]
訓練後モデルから大量のアライメントトレーニングデータを抽出できることが示唆された。このデータは、長期コンテキスト推論、安全性、命令追従、数学などの特定の機能を改善するためにモデルを操縦するのに有用である。 SFT や RL のような後トレーニングフェーズで使用されたトレーニングデータを,モデルが容易に再学習できることが判明した。
論文参考訳（メタデータ） (2025-10-21T12:06:00Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Fine-tuning is Not Fine: Mitigating Backdoor Attacks in GNNs with Limited Clean Data [51.745219224707384]
グラフニューラルネットワーク(GNN)は,メッセージパッシング機構を通じて,優れたパフォーマンスを実現している。最近の研究は、GNNのバックドア攻撃に対する脆弱性を強調している。本稿では,実践的なバックドア緩和フレームワークである GraphNAD を提案する。
論文参考訳（メタデータ） (2025-01-10T10:16:35Z)
Training on the Test Model: Contamination in Ranking Distillation [14.753216172912968]
蒸留における汚染された教師モデルの効果について検討する。教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
論文参考訳（メタデータ） (2024-11-04T17:11:14Z)
Tiny models from tiny data: Textual and null-text inversion for few-shot distillation [11.80626524879555]
ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
論文参考訳（メタデータ） (2024-06-05T11:01:42Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。 4つのNLPベンチマークで3つの結果を得た。
論文参考訳（メタデータ） (2023-05-03T17:50:56Z)
Gradient-Free Structured Pruning with Unlabeled Data [57.999191898036706]
ラベルのないデータのみを使用する勾配のない構造化プルーニングフレームワークを提案する。元々のFLOPカウントの最大40%は、考慮されたすべてのタスクで4%未満の精度で削減できる。
論文参考訳（メタデータ） (2023-03-07T19:12:31Z)
Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。テキスト分類のための新しいデータ蒸留法を開発した。元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文参考訳（メタデータ） (2021-04-17T04:54:54Z)
Beyond Self-Supervision: A Simple Yet Effective Network Distillation Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文参考訳（メタデータ） (2021-03-10T09:32:44Z)
Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文参考訳（メタデータ） (2020-10-24T23:15:43Z)
New Properties of the Data Distillation Method When Working With Tabular Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-10-19T20:27:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。