論文の概要: Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification
- arxiv url: http://arxiv.org/abs/2108.02598v1
- Date: Thu, 5 Aug 2021 13:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 17:13:45.956946
- Title: Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification
- Title(参考訳): 入力分類のためのBERT変換器から音声変換器への知識蒸留
- Authors: Yidi Jiang, Bidisha Sharma, Maulik Madhavi, and Haizhou Li
- Abstract要約: 本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
- 参考スコア(独自算出の注目度): 66.62686601948455
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end intent classification using speech has numerous advantages
compared to the conventional pipeline approach using automatic speech
recognition (ASR), followed by natural language processing modules. It attempts
to predict intent from speech without using an intermediate ASR module.
However, such end-to-end framework suffers from the unavailability of large
speech resources with higher acoustic variation in spoken language
understanding. In this work, we exploit the scope of the transformer
distillation method that is specifically designed for knowledge distillation
from a transformer based language model to a transformer based speech model. In
this regard, we leverage the reliable and widely used bidirectional encoder
representations from transformers (BERT) model as a language model and transfer
the knowledge to build an acoustic model for intent classification using the
speech. In particular, a multilevel transformer based teacher-student model is
designed, and knowledge distillation is performed across attention and hidden
sub-layers of different transformer layers of the student and teacher models.
We achieve an intent classification accuracy of 99.10% and 88.79% for Fluent
speech corpus and ATIS database, respectively. Further, the proposed method
demonstrates better performance and robustness in acoustically degraded
condition compared to the baseline method.
- Abstract(参考訳): 音声を用いたエンドツーエンドの意図分類は, 音声認識(ASR)を用いた従来のパイプライン方式と比較して, 自然言語処理モジュールに次いで多くの利点がある。
中間ASRモジュールを使わずに音声から意図を予測しようとする。
しかし、このようなエンドツーエンドのフレームワークは、音声言語理解において高い音響的変動を伴う大きな音声リソースの有効性に悩まされている。
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,トランスフォーマ (bert) モデルからの信頼度の高い双方向エンコーダ表現を言語モデルとして活用し,その知識を伝達し,音声を用いた意図分類のための音響モデルを構築する。
特にマルチレベルトランスフォーマーベースの教師学生モデルが設計され、学生モデルと教師モデルの異なるトランスフォーマーレイヤーの注目層と隠されたサブレイヤ間で知識蒸留が行われる。
本研究では,Fluent音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
さらに, 本手法は, ベースライン法と比較して, 音響劣化条件下での性能とロバスト性を示す。
関連論文リスト
- SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Multi-View Self-Attention Based Transformer for Speaker Recognition [33.21173007319178]
トランスフォーマーモデルは、話者認識などの音声処理タスクに広く利用されている。
本稿では,話者変換器のための多視点自己認識機構を提案する。
提案した話者トランスフォーマーネットワークは,最先端モデルと比較して優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-11T07:03:23Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Transformer-based language modeling and decoding for conversational
speech recognition [0.0]
重み付き有限状態トランスデューサフレームワークで効率的に復号する。
本稿では,トランスフォーマーに基づく言語モデルにより,より長い範囲の履歴をキャプチャ可能な格子再構成手法について紹介する。
論文 参考訳(メタデータ) (2020-01-04T23:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。