論文の概要: Knowledge distillation from language model to acoustic model: a
hierarchical multi-task learning approach
- arxiv url: http://arxiv.org/abs/2110.10429v1
- Date: Wed, 20 Oct 2021 08:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:29:42.689401
- Title: Knowledge distillation from language model to acoustic model: a
hierarchical multi-task learning approach
- Title(参考訳): 言語モデルから音響モデルへの知識蒸留:階層的マルチタスク学習アプローチ
- Authors: Mun-Hak Lee, Joon-Hyuk Chang
- Abstract要約: クロスモーダルな知識蒸留は音声認識研究の主要なトピックである。
クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案する。
提案手法を異なる単位で訓練されたLMを用いて階層蒸留法に拡張する。
- 参考スコア(独自算出の注目度): 12.74181185088531
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The remarkable performance of the pre-trained language model (LM) using
self-supervised learning has led to a major paradigm shift in the study of
natural language processing. In line with these changes, leveraging the
performance of speech recognition systems with massive deep learning-based LMs
is a major topic of speech recognition research. Among the various methods of
applying LMs to speech recognition systems, in this paper, we focus on a
cross-modal knowledge distillation method that transfers knowledge between two
types of deep neural networks with different modalities. We propose an acoustic
model structure with multiple auxiliary output layers for cross-modal
distillation and demonstrate that the proposed method effectively compensates
for the shortcomings of the existing label-interpolation-based distillation
method. In addition, we extend the proposed method to a hierarchical
distillation method using LMs trained in different units (senones, monophones,
and subwords) and reveal the effectiveness of the hierarchical distillation
method through an ablation study.
- Abstract(参考訳): 自己教師付き学習を用いた事前学習言語モデル(LM)の顕著な性能は、自然言語処理の研究において大きなパラダイムシフトをもたらした。
これらの変化に伴い、大規模なディープラーニングに基づくlmsを用いた音声認識システムの性能向上が音声認識研究の主要なトピックとなっている。
本稿では,音声認識システムにLMを適用する様々な手法の中で,異なるモーダル性を持つ2種類のディープニューラルネットワーク間で知識を伝達するクロスモーダルな知識蒸留手法に焦点を当てる。
クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案し,提案手法が既存のラベル補間蒸留法の欠点を効果的に補うことを実証した。
さらに,提案手法を異なる単位(セノン,モノフォン,サブワード)で訓練されたLMを用いた階層蒸留法に拡張し,アブレーションによる階層蒸留法の有効性を明らかにする。
関連論文リスト
- Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers [19.812986973537143]
本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新たなアプローチを提案する。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
論文 参考訳(メタデータ) (2024-01-22T05:46:11Z) - Unsupervised Representations Improve Supervised Learning in Speech
Emotion Recognition [1.3812010983144798]
本研究では,小さな音声セグメントからの感情認識のための自己教師付き特徴抽出と教師付き分類を統合した革新的なアプローチを提案する。
事前処理では,Wav2Vecモデルに基づく自己教師付き特徴抽出器を用いて音声データから音響特徴を抽出した。
次に、前処理ステップの出力特徴マップを、カスタム設計の畳み込みニューラルネットワーク(CNN)ベースのモデルに入力し、感情分類を行う。
論文 参考訳(メタデータ) (2023-09-22T08:54:06Z) - Adaptive Knowledge Distillation between Text and Speech Pre-trained
Models [30.125690848883455]
先行インフォームド・アダプティブ・ナレッジ蒸留(PAD)は他のメートル法に基づく蒸留法よりも言語知識の伝達に効果的である。
本稿では,テキストと音声の埋め込み空間を少量のデータで整列させるため,メートル法に基づく蒸留について検討する。
我々は,3つの音声言語理解ベンチマークを用いて,PADが他のメートル法に基づく蒸留法よりも言語知識の伝達に有効であることを示す。
論文 参考訳(メタデータ) (2023-03-07T02:31:57Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation [22.733285434532068]
大規模事前学習型言語モデル(PLM)は、自然言語処理タスクにおいて大きな可能性を示している。
本稿では,CIFモデルに基づく階層的知識蒸留(HKD)を提案する。
従来のCIFモデルと比較すると,AISHELL-1とLibriSpeechのデータセットに対して15%と9%の相対誤差率削減を実現している。
論文 参考訳(メタデータ) (2023-01-30T15:44:55Z) - Evaluation of Self-taught Learning-based Representations for Facial
Emotion Recognition [62.30451764345482]
この研究は、顔の感情認識のための自己学習の概念を通じて得られた教師なし表現を生成するための様々な戦略を記述する。
このアイデアは、オートエンコーダの初期化、アーキテクチャ、トレーニングデータを変化させることで、多様性を促進する補完的な表現を作ることである。
Jaffe と Cohn-Kanade のデータセットに対する残余のサブジェクトアウトプロトコルによる実験結果から,提案した多種多様な表現に基づく FER 手法が最先端のアプローチと好適に比較できることが示唆された。
論文 参考訳(メタデータ) (2022-04-26T22:48:15Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Distilling Knowledge from Ensembles of Acoustic Models for Joint
CTC-Attention End-to-End Speech Recognition [14.3760318387958]
本稿では,CTC-attention end-to-end ASRシステムに対するマルチティーラー蒸留法の拡張を提案する。
それらの背後にある中核的な直感は、観察された損失のみに焦点を当てるのではなく、エラー率メトリックを教師の選択に統合することである。
異なるデータセットのトレーニング手順を選択することで,これらの戦略を評価する。
論文 参考訳(メタデータ) (2020-05-19T09:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。