論文の概要: Speech-language Pre-training for End-to-end Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2102.06283v1
- Date: Thu, 11 Feb 2021 21:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:04:24.698885
- Title: Speech-language Pre-training for End-to-end Spoken Language
Understanding
- Title(参考訳): エンドツーエンド音声理解のための音声言語事前学習
- Authors: Yao Qian, Ximo Bian, Yu Shi, Naoyuki Kanda, Leo Shen, Zhen Xiao and
Michael Zeng
- Abstract要約: 本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 18.548949994603213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) spoken language understanding (SLU) can infer semantics
directly from speech signal without cascading an automatic speech recognizer
(ASR) with a natural language understanding (NLU) module. However, paired
utterance recordings and corresponding semantics may not always be available or
sufficient to train an E2E SLU model in a real production environment. In this
paper, we propose to unify a well-optimized E2E ASR encoder (speech) and a
pre-trained language model encoder (language) into a transformer decoder. The
unified speech-language pre-trained model (SLP) is continually enhanced on
limited labeled data from a target domain by using a conditional masked
language model (MLM) objective, and thus can effectively generate a sequence of
intent, slot type, and slot value for given input speech in the inference. The
experimental results on two public corpora show that our approach to E2E SLU is
superior to the conventional cascaded method. It also outperforms the present
state-of-the-art approaches to E2E SLU with much less paired data.
- Abstract(参考訳): エンドツーエンド(E2E)音声言語理解(SLU)は、自然言語理解(NLU)モジュールで自動音声認識(ASR)をカスケードすることなく、音声信号から直接意味を推測することができる。
しかし、ペア音声記録とそれに対応する意味論は、実運用環境でE2E SLUモデルをトレーニングするのに必ずしも十分なものではない。
本稿では,最適化されたe2e asrエンコーダ (speech) と事前学習された言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
条件付きマスキング言語モデル(mlm)の目的を用いて、対象領域から限定されたラベル付きデータに対してslp(unified speech-language pre-trained model)を継続的に強化し、推論において所定の入力音声に対する意図、スロットタイプ、スロット値のシーケンスを効果的に生成することができる。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
また、E2E SLUに対する現在の最先端のアプローチよりもはるかに少ないペアデータで優れている。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Transfer Learning from Pre-trained Language Models Improves End-to-End
Speech Summarization [48.35495352015281]
エンドツーエンド音声要約(E2E SSum)は、入力音声を直接1つのモデルで読みやすい短文に要約する。
E2E SSumモデルでは, 音声対の収集コストが高いため, 訓練データ不足に悩まされ, 不自然な文を出力する傾向にある。
本稿では,E2E SSumデコーダに事前学習言語モデル(LM)をトランスファーラーニングにより組み込むことを初めて提案する。
論文 参考訳(メタデータ) (2023-06-07T08:23:58Z) - End-to-End Spoken Language Understanding: Performance analyses of a
voice command task in a low resource setting [0.3867363075280543]
本稿では,E2Eモデルを用いて音声言語理解タスクを実行するための信号特徴と他の言語特性を同定する。
この研究は、英語以外の音声コマンドを処理しなければならないスマートホームのアプリケーションドメインで実施されている。
論文 参考訳(メタデータ) (2022-07-17T13:51:56Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Improving End-to-End Models for Set Prediction in Spoken Language
Understanding [26.781489293420055]
本稿では、音声の順序を推測する暗黙の注意に基づくアライメント手法とともに、新しいデータ拡張手法を提案する。
F1スコアは、RNN-Tでは11%以上、注意に基づくエンコーダデコーダSLUモデルでは2%以上増加し、これまで報告された結果を上回った。
論文 参考訳(メタデータ) (2022-01-28T13:23:17Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。