論文の概要: Comparison of Soft and Hard Target RNN-T Distillation for Large-scale
ASR
- arxiv url: http://arxiv.org/abs/2210.05793v1
- Date: Tue, 11 Oct 2022 21:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:16:51.132555
- Title: Comparison of Soft and Hard Target RNN-T Distillation for Large-scale
ASR
- Title(参考訳): 大規模asr用軟質および硬質ターゲットrnn-t蒸留法の比較
- Authors: Dongseong Hwang, Khe Chai Sim, Yu Zhang, Trevor Strohman
- Abstract要約: 我々は、最先端(SoTA)自動音声認識(ASR)で広く使われているRNN-Tモデルの知識蒸留に焦点を当てた。
その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。
重み0.6Bの大規模モデルでは, ソフトターゲット蒸留を用いた雑音学習によるLibriSpeech上での新しいSoTA単語誤り率(WER)を実現する。
- 参考スコア(独自算出の注目度): 12.953149757081025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation is an effective machine learning technique to transfer
knowledge from a teacher model to a smaller student model, especially with
unlabeled data. In this paper, we focus on knowledge distillation for the RNN-T
model, which is widely used in state-of-the-art (SoTA) automatic speech
recognition (ASR). Specifically, we compared using soft and hard target
distillation to train large-scaleRNN-T models on the LibriSpeech/LibriLight
public dataset (60k hours) and our in-house data (600k hours). We found that
hard tar-gets are more effective when the teacher and student have different
architecture, such as large teacher and small streaming student. On the other
hand, soft target distillation works better in self-training scenario like
iterative large teacher training. For a large model with0.6B weights, we
achieve a new SoTA word error rate (WER) on LibriSpeech (8% relative
improvement on dev-other) using Noisy Student Training with soft target
distillation. It also allows our production teacher to adapt new data domain
continuously.
- Abstract(参考訳): 知識蒸留は教師モデルからより小さな学生モデル、特にラベルのないデータに知識を伝達する効果的な機械学習技術である。
本稿では,最先端(SoTA)自動音声認識(ASR)において広く用いられているRNN-Tモデルの知識蒸留に着目した。
具体的には, ソフトおよびハードターゲット蒸留法を用いて, librispeech/librilight 公開データセット (60k時間), 社内データ (6k時間) で大規模rnn-tモデルを訓練した。
その結果、教師と生徒が大きな教師や小さなストリーミング学生など、異なるアーキテクチャを持つ場合、ハードタルオブジェクトの方が効果的であることが判明した。
一方で、ソフトターゲット蒸留は、反復的な大規模教員養成のようなセルフトレーニングのシナリオでよりうまく機能する。
重み0.6Bの大規模モデルでは,ソフトターゲット蒸留を用いたノイズ学習トレーニングを用いて,LibriSpeechの単語誤り率(WER)を8%向上させた。
また、本番の教師は、新しいデータドメインを継続的に適用することができます。
関連論文リスト
- ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Robust Knowledge Distillation from RNN-T Models With Noisy Training
Labels Using Full-Sum Loss [32.816725317261934]
本研究は、知識蒸留(KD)を研究し、リカレントニューラルネットワークトランスデューサ(RNN-T)モデルに対する制約に対処する。
本研究は,RNN-Tモデルにおいて,系列レベルのKD,フルサム蒸留法が他の蒸留法よりも優れていることを示す。
また,教師の系列識別知識を蒸留し,WERのさらなる改善につながるフルサム蒸留の変種を提案する。
論文 参考訳(メタデータ) (2023-03-10T14:46:23Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - LEAD: Liberal Feature-based Distillation for Dense Retrieval [67.48820723639601]
知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。
従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。
本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
論文 参考訳(メタデータ) (2022-12-10T06:30:54Z) - Sparse Distillation: Speeding Up Text Classification by Using Bigger
Models [49.8019791766848]
最先端の変圧器モデルを軽量の学生モデルに拡張することは、推論時の計算コストを削減する効果的な方法である。
本稿では,学生モデルの設計空間における新しい領域を探索することにより,推論速度の限界をさらに推し進めることを目的とする。
実験の結果,RoBERTa-Large教師の授業成績の97%を6つのテキスト分類タスクのコレクションに保持していることがわかった。
論文 参考訳(メタデータ) (2021-10-16T10:04:14Z) - Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。
テキスト分類のための新しいデータ蒸留法を開発した。
元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文 参考訳(メタデータ) (2021-04-17T04:54:54Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。