論文の概要: Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers
- arxiv url: http://arxiv.org/abs/2401.11700v1
- Date: Mon, 22 Jan 2024 05:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:11:53.147074
- Title: Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers
- Title(参考訳): 言語モデルからエンドツーエンド音声認識への効果的な知識蒸留による並列の復号化
- Authors: Michael Hentschel, Yuta Nishikawa, Tatsuya Komatsu, Yusuke Fujita
- Abstract要約: 本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新たなアプローチを提案する。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
- 参考スコア(独自算出の注目度): 19.812986973537143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a novel approach for knowledge distillation (KD) from a
BERT teacher model to an automatic speech recognition (ASR) model using
intermediate layers. To distil the teacher's knowledge, we use an attention
decoder that learns from BERT's token probabilities. Our method shows that
language model (LM) information can be more effectively distilled into an ASR
model using both the intermediate layers and the final layer. By using the
intermediate layers as distillation target, we can more effectively distil LM
knowledge into the lower network layers. Using our method, we achieve better
recognition accuracy than with shallow fusion of an external LM, allowing us to
maintain fast parallel decoding. Experiments on the LibriSpeech dataset
demonstrate the effectiveness of our approach in enhancing greedy decoding with
connectionist temporal classification (CTC).
- Abstract(参考訳): 本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新しいアプローチを提案する。
教師の知識を分散させるためには,bertのトークン確率から学習する注意デコーダを用いる。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
中間層を蒸留ターゲットとして使用することにより,LMの知識をより効果的に下位層に分散させることができる。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
LibriSpeechデータセットの実験は、接続性時間分類(CTC)による欲求的復号化の促進における我々のアプローチの有効性を示した。
関連論文リスト
- OAL: Enhancing OOD Detection Using Latent Diffusion [5.357756138014614]
Outlier Aware Learning (OAL)フレームワークは、潜伏空間で直接OODトレーニングデータを合成する。
In-Distribution (ID) と収集したOOD特徴の区別を増幅する相互情報に基づくコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T11:01:43Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Make BERT-based Chinese Spelling Check Model Enhanced by Layerwise
Attention and Gaussian Mixture Model [33.446533426654995]
我々は、BERTベースのCSCモデルを強化するために、異種知識注入フレームワークを設計する。
複数層表現を生成するために,n-gram-based layerwise self-attention の新たな形式を提案する。
実験の結果,提案手法は4つの強力なベースラインモデルに対して安定な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-12-27T16:11:07Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - LEAD: Liberal Feature-based Distillation for Dense Retrieval [67.48820723639601]
知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。
従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。
本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
論文 参考訳(メタデータ) (2022-12-10T06:30:54Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation [9.91548921801095]
本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-12T19:11:34Z) - BERT-EMD: Many-to-Many Layer Mapping for BERT Compression with Earth
Mover's Distance [25.229624487344186]
高ストレージと計算コストは、事前訓練された言語モデルがリソース制約されたデバイスに効果的にデプロイされることを妨げる。
本稿では,多層多層膜マッピングに基づく新しいBERT蒸留法を提案する。
我々のモデルは様々なNLPタスクに対して異なる教師層から適応的に学習することができる。
論文 参考訳(メタデータ) (2020-10-13T02:53:52Z) - MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down
Distillation [153.56211546576978]
本研究では,ラベル生成器を用いて高い適合性を有するソフトターゲットを生成することを提案する。
このラベルジェネレータを最適化するためにメタ学習技術を用いることができる。
実験は CIFAR-100 と ILSVRC2012 の2つの標準分類ベンチマークで実施された。
論文 参考訳(メタデータ) (2020-08-27T13:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。