論文の概要: Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss
- arxiv url: http://arxiv.org/abs/2303.05958v1
- Date: Fri, 10 Mar 2023 14:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:44:06.993824
- Title: Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss
- Title(参考訳): 完全損失を用いた雑音学習ラベル付きRNN-Tモデルのロバスト知識蒸留
- Authors: Mohammad Zeineldeen, Kartik Audhkhasi, Murali Karthick Baskar, Bhuvana
Ramabhadran
- Abstract要約: 本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
- 参考スコア(独自算出の注目度): 32.816725317261934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies knowledge distillation (KD) and addresses its constraints
for recurrent neural network transducer (RNN-T) models. In hard distillation, a
teacher model transcribes large amounts of unlabelled speech to train a student
model. Soft distillation is another popular KD method that distills the output
logits of the teacher model. Due to the nature of RNN-T alignments, applying
soft distillation between RNN-T architectures having different posterior
distributions is challenging. In addition, bad teachers having high
word-error-rate (WER) reduce the efficacy of KD. We investigate how to
effectively distill knowledge from variable quality ASR teachers, which has not
been studied before to the best of our knowledge. We show that a sequence-level
KD, full-sum distillation, outperforms other distillation methods for RNN-T
models, especially for bad teachers. We also propose a variant of full-sum
distillation that distills the sequence discriminative knowledge of the teacher
leading to further improvement in WER. We conduct experiments on public
datasets namely SpeechStew and LibriSpeech, and on in-house production data.
- Abstract(参考訳): 本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
ハード蒸留では、教師モデルは大量の未学習音声を転写して学生モデルを訓練する。
ソフト蒸留は、教師モデルの出力ロジットを蒸留する別の一般的なKD法である。
RNN-Tアライメントの性質から, 後部分布が異なるRNN-Tアーキテクチャ間のソフト蒸留は困難である。
さらに,単語誤り率(WER)が高い教師は,KDの有効性を低下させる。
本研究は,これまで研究されていない質の異なるasr教師の知識を効果的に蒸留する方法である。
本稿では,RNN-Tモデル,特に悪い教師に対して,系列レベルのKD,フルサム蒸留が他の蒸留方法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
我々は、公開データセットであるSpeechStewとLibriSpeech、および社内生産データについて実験を行う。
関連論文リスト
- Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Knowledge Distillation with Refined Logits [31.205248790623703]
本稿では,現在のロジット蒸留法の限界に対処するため,Refined Logit Distillation (RLD)を導入する。
我々のアプローチは、高性能な教師モデルでさえ誤った予測をすることができるという観察に動機づけられている。
本手法は,教師からの誤解を招く情報を,重要なクラス相関を保ちながら効果的に排除することができる。
論文 参考訳(メタデータ) (2024-08-14T17:59:32Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - Unbiased Knowledge Distillation for Recommendation [66.82575287129728]
知識蒸留(KD)は推論遅延を低減するためにレコメンダシステム(RS)に応用されている。
従来のソリューションは、まずトレーニングデータから完全な教師モデルを訓練し、その後、その知識を変換して、コンパクトな学生モデルの学習を監督する。
このような標準的な蒸留パラダイムは深刻なバイアス問題を引き起こし、蒸留後に人気アイテムがより強く推奨されることになる。
論文 参考訳(メタデータ) (2022-11-27T05:14:03Z) - Comparison of Soft and Hard Target RNN-T Distillation for Large-scale
ASR [12.953149757081025]
我々は、最先端(SoTA)自動音声認識(ASR)で広く使われているRNN-Tモデルの知識蒸留に焦点を当てた。
その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。
重み0.6Bの大規模モデルでは, ソフトターゲット蒸留を用いた雑音学習によるLibriSpeech上での新しいSoTA単語誤り率(WER)を実現する。
論文 参考訳(メタデータ) (2022-10-11T21:32:34Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - Dynamic Rectification Knowledge Distillation [0.0]
ダイナミック・リクティフィケーション・ナレッジ蒸留(DR-KD)は、知識蒸留の枠組みである。
DR-KDは生徒を自身の教師に転換し、自己学習者が情報を蒸留しながら誤った予測を行った場合、知識が蒸留される前に誤りが修正される。
提案するDR-KDは, 複雑な教師モデルが存在しない場合, 極めて良好に機能する。
論文 参考訳(メタデータ) (2022-01-27T04:38:01Z) - On Self-Distilling Graph Neural Network [64.00508355508106]
GNN自己蒸留(GNN-SD)と呼ばれるGNNに対する教師なし知識蒸留法を提案する。
本手法は, 組込みグラフの非平滑性を効率よく定量化する, 提案した近傍不一致率(NDR)に基づいて構築する。
また、他の蒸留戦略の誘導に活用できる汎用的なGNN-SDフレームワークについても要約する。
論文 参考訳(メタデータ) (2020-11-04T12:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。