論文の概要: Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2010.13105v2
- Date: Thu, 10 Jun 2021 11:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:31:58.031495
- Title: Two-stage Textual Knowledge Distillation for End-to-End Spoken Language
Understanding
- Title(参考訳): エンド・ツー・エンド音声理解のための2段階テキスト知識蒸留
- Authors: Seongbin Kim, Gyuwan Kim, Seongjin Shin, Sangmin Lee
- Abstract要約: 本研究では,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを一致させる2段階のテキスト知識蒸留法を提案する。
我々は、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%のテスト精度、10%サブセットで99.5%を達成した。
- 参考スコア(独自算出の注目度): 18.275646344620387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end approaches open a new way for more accurate and efficient spoken
language understanding (SLU) systems by alleviating the drawbacks of
traditional pipeline systems. Previous works exploit textual information for an
SLU model via pre-training with automatic speech recognition or fine-tuning
with knowledge distillation. To utilize textual information more effectively,
this work proposes a two-stage textual knowledge distillation method that
matches utterance-level representations and predicted logits of two modalities
during pre-training and fine-tuning, sequentially. We use vq-wav2vec BERT as a
speech encoder because it captures general and rich features. Furthermore, we
improve the performance, especially in a low-resource scenario, with data
augmentation methods by randomly masking spans of discrete audio tokens and
contextualized hidden representations. Consequently, we push the
state-of-the-art on the Fluent Speech Commands, achieving 99.7% test accuracy
in the full dataset setting and 99.5% in the 10% subset setting. Throughout the
ablation studies, we empirically verify that all used methods are crucial to
the final performance, providing the best practice for spoken language
understanding. Code is available at https://github.com/clovaai/textual-kd-slu.
- Abstract(参考訳): エンドツーエンドアプローチは、従来のパイプラインシステムの欠点を軽減することによって、より正確で効率的な音声言語理解(SLU)システムのための新しい方法を開く。
従来の研究は、音声認識による事前学習や知識蒸留による微調整により、SLUモデルのテキスト情報を利用する。
本研究は,テキスト情報をより効果的に活用するために,事前学習と微調整の2つのモードの発話レベル表現と予測ロジットを逐次一致させる2段階のテキスト知識蒸留法を提案する。
Vq-wav2vec BERTを音声エンコーダとして使用しています。
さらに,分散オーディオトークンとコンテキスト化隠れ表現のスパンをランダムにマスキングすることにより,データ拡張手法を用いて,特に低リソースシナリオにおいて性能を向上させる。
その結果、Fluent Speech Commandsの最先端を推し進め、完全なデータセット設定で99.7%、10%のサブセットで99.5%のテスト精度を達成した。
アブレーション研究を通して,すべての使用方法が最終結果に不可欠であることを実証的に検証し,音声言語理解のためのベストプラクティスを提供する。
コードはhttps://github.com/clovaai/textual-kd-sluで入手できる。
関連論文リスト
- Active Learning with Task Adaptation Pre-training for Speech Emotion Recognition [17.59356583727259]
音声感情認識(SER)はその幅広い応用により注目を集めている。
我々は,textscAfterと呼ばれる,SERのためのアクティブラーニング(AL)に基づく微調整フレームワークを提案する。
提案手法は精度を8.45%向上し,時間消費を79%削減する。
論文 参考訳(メタデータ) (2024-05-01T04:05:29Z) - End-to-End Speech Recognition Contextualization with Large Language
Models [25.198480789044346]
本稿では,Large Language Models (LLM) を取り入れた音声認識モデルの文脈化手法を提案する。
音声機能とコンテクスト用のオプションテキストトークンを提供し、デコーダのみの方法でシステムに書き起こしを訓練する。
実験の結果,追加のテキストコンテキストが提供されると,WERが6%削減され,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-09-19T20:28:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。