論文の概要: Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
- arxiv url: http://arxiv.org/abs/2407.10603v1
- Date: Mon, 15 Jul 2024 10:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:31:11.881867
- Title: Leave No Knowledge Behind During Knowledge Distillation: Towards Practical and Effective Knowledge Distillation for Code-Switching ASR Using Realistic Data
- Title(参考訳): 知識蒸留における知識の欠如:実データを用いたコードスイッチングASRの実用的で効果的な知識蒸留を目指して
- Authors: Liang-Hsuan Tseng, Zih-Ching Chen, Wei-Shun Chang, Cheng-Kuang Lee, Tsung-Ren Huang, Hung-yi Lee,
- Abstract要約: 本稿では,現実的な音声のみのデータを用いた音声認識のための,より効率的なモデルを構築するためのフレームワークを提案する。
提案手法は,教師モデルの知識と,小さな補助モデルからの洞察を両立させる。
ベースライン法と教師モデルを全テストセットで比較しながら,5倍高速な生成速度を持つ2時間小型モデルを得ることに成功した。
- 参考スコア(独自算出の注目度): 42.65516074428803
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in automatic speech recognition (ASR) often rely on large speech foundation models for generating high-quality transcriptions. However, these models can be impractical due to limited computing resources. The situation is even more severe in terms of more realistic or difficult scenarios, such as code-switching ASR (CS-ASR). To address this, we present a framework for developing more efficient models for CS-ASR through knowledge distillation using realistic speech-only data. Our proposed method, Leave No Knowledge Behind During Knowledge Distillation (K$^2$D), leverages both the teacher model's knowledge and additional insights from a small auxiliary model. We evaluate our approach on two in-domain and two out-domain datasets, demonstrating that K$^2$D is effective. By conducting K$^2$D on the unlabeled realistic data, we have successfully obtained a 2-time smaller model with 5-time faster generation speed while outperforming the baseline methods and the teacher model on all the testing sets. We have made our model publicly available on Hugging Face (https://huggingface.co/andybi7676/k2d-whisper.zh-en).
- Abstract(参考訳): 音声認識(ASR)の最近の進歩は、しばしば高品質な転写を生成するために大きな音声基盤モデルに依存している。
しかし、これらのモデルは限られた計算資源のために実用的ではない。
この状況は、コードスイッチングASR(CS-ASR)のような、より現実的で難しいシナリオにおいてさらに深刻である。
そこで本研究では,現実的な音声のみのデータを用いた知識蒸留によるCS-ASRのより効率的なモデル開発のためのフレームワークを提案する。
提案手法は, 教師モデルの知識と, 小さな補助モデルからの知見を両立させ, 知識蒸留(K$^2$D)における知識の欠如を解消する。
2つのドメイン内データセットと2つのドメイン外データセットに対するアプローチを評価し、K$^2$Dが有効であることを示す。
K$^2$Dをラベルのない現実的なデータに対して実施することにより、ベースライン法と教師モデルを全てのテストセットで上回りながら、5倍高速な生成速度を持つ2倍の小さなモデルを得ることに成功した。
私たちはHugging Face(https://huggingface.co/andybi7676/k2d-whisper.zh-en)でモデルを公開しました。
関連論文リスト
- Mutual Learning for Finetuning Click-Through Rate Prediction Models [0.0]
本稿では,相互学習アルゴリズムが対等である場合に,いかに有用かを示す。
CriteoデータセットとAvazuデータセットの実験では、相互学習アルゴリズムがモデルの性能を最大0.66%改善した。
論文 参考訳(メタデータ) (2024-06-17T20:56:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Lightweight Self-Knowledge Distillation with Multi-source Information
Fusion [3.107478665474057]
知識蒸留(KD)は、ニューラルネットワークモデル間で知識を伝達する強力な技術である。
マルチソース情報を利用してより情報のある教師を構築する軽量なSKDフレームワークを提案する。
提案するDRG, DSR, およびそれらの組み合わせの性能を, 各種データセットおよびモデルに関する総合的な実験により検証する。
論文 参考訳(メタデータ) (2023-05-16T05:46:31Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Green CWS: Extreme Distillation and Efficient Decode Method Towards
Industrial Application [7.33244617309908]
本研究は,軽量モデルと改良復号法(PCRF)を組み込んだ高速かつ正確なCWSフレームワークを提案する。
実験の結果、我々の研究は、複数のデータセット上で14%の時間消費で比較的高いパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:45:02Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。