論文の概要: Distilling Knowledge from Ensembles of Acoustic Models for Joint
CTC-Attention End-to-End Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.09310v3
- Date: Sun, 4 Jul 2021 02:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:39:47.408298
- Title: Distilling Knowledge from Ensembles of Acoustic Models for Joint
CTC-Attention End-to-End Speech Recognition
- Title(参考訳): CTC-Attention End-to-End 音声認識のための音響モデルのアンサンブルからの蒸留知識
- Authors: Yan Gao, Titouan Parcollet, Nicholas Lane
- Abstract要約: 本稿では,CTC-attention end-to-end ASRシステムに対するマルチティーラー蒸留法の拡張を提案する。
それらの背後にある中核的な直感は、観察された損失のみに焦点を当てるのではなく、エラー率メトリックを教師の選択に統合することである。
異なるデータセットのトレーニング手順を選択することで,これらの戦略を評価する。
- 参考スコア(独自算出の注目度): 14.3760318387958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation has been widely used to compress existing deep
learning models while preserving the performance on a wide range of
applications. In the specific context of Automatic Speech Recognition (ASR),
distillation from ensembles of acoustic models has recently shown promising
results in increasing recognition performance. In this paper, we propose an
extension of multi-teacher distillation methods to joint CTC-attention
end-to-end ASR systems. We also introduce three novel distillation strategies.
The core intuition behind them is to integrate the error rate metric to the
teacher selection rather than solely focusing on the observed losses. In this
way, we directly distill and optimize the student toward the relevant metric
for speech recognition. We evaluate these strategies under a selection of
training procedures on different datasets (TIMIT, Librispeech, Common Voice)
and various languages (English, French, Italian). In particular,
state-of-the-art error rates are reported on the Common Voice French, Italian
and TIMIT datasets.
- Abstract(参考訳): 知識蒸留は、幅広いアプリケーションの性能を維持しながら、既存のディープラーニングモデルを圧縮するために広く用いられている。
音声認識(ASR)の特定の文脈において,音響モデルのアンサンブルからの蒸留は,音声認識性能の向上に有望な結果を示した。
本稿では,CTC-attention end-to-end ASRシステムに対するマルチティーラー蒸留法の拡張を提案する。
また, 新たな蒸留戦略を3つ紹介する。
それらの背後にある中核的な直感は、観察された損失のみに焦点を当てるのではなく、エラー率メトリックを教師の選択に統合することである。
このようにして,学生を音声認識の関連指標に向けて直接蒸留・最適化する。
異なるデータセット(TIMIT, Librispeech, Common Voice)と様々な言語(英語,フランス語,イタリア語)の訓練手順を選択することで,これらの戦略を評価する。
特に、最先端のエラー率はCommon Voice French, Italian, TIMITのデータセットで報告されている。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Speech Emotion Recognition with Distilled Prosodic and Linguistic Affect Representations [23.4909421082857]
EmoDistillは、音声から強い言語的および韻律的な感情表現を学ぶための新しいフレームワークである。
本手法は,事前学習した韻律教師と言語教師のペアから,埋め込みレベルとロジットレベルの両方の情報を抽出する。
IEMOCAPベンチマーク実験により,本手法は,他の一様・多モード手法よりもかなり優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-09T17:30:35Z) - Adaptive Knowledge Distillation between Text and Speech Pre-trained
Models [30.125690848883455]
先行インフォームド・アダプティブ・ナレッジ蒸留(PAD)は他のメートル法に基づく蒸留法よりも言語知識の伝達に効果的である。
本稿では,テキストと音声の埋め込み空間を少量のデータで整列させるため,メートル法に基づく蒸留について検討する。
我々は,3つの音声言語理解ベンチマークを用いて,PADが他のメートル法に基づく蒸留法よりも言語知識の伝達に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-07T02:31:57Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation [22.733285434532068]
大規模事前学習型言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。
本稿では,CIFモデルに基づく階層的知識蒸留(HKD)を提案する。
従来のCIFモデルと比較すると,AISHELL-1とLibriSpeechのデータセットに対して15%と9%の相対誤差率削減を実現している。
論文 参考訳(メタデータ) (2023-01-30T15:44:55Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Knowledge distillation from language model to acoustic model: a
hierarchical multi-task learning approach [12.74181185088531]
クロスモーダルな知識蒸留は音声認識研究の主要なトピックである。
クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案する。
提案手法を異なる単位で訓練されたLMを用いて階層蒸留法に拡張する。
論文 参考訳(メタデータ) (2021-10-20T08:42:10Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。