論文の概要: Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2010.13826v1
- Date: Mon, 26 Oct 2020 18:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 19:07:57.662434
- Title: Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining
- Title(参考訳): 自己教師付き音声と言語モデルの事前学習による半教師付き音声言語理解
- Authors: Cheng-I Lai, Yung-Sung Chuang, Hung-Yi Lee, Shang-Wen Li, James Glass
- Abstract要約: そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
- 参考スコア(独自算出の注目度): 64.35907499990455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Much recent work on Spoken Language Understanding (SLU) is limited in at
least one of three ways: models were trained on oracle text input and neglected
ASR errors, models were trained to predict only intents without the slot
values, or models were trained on a large amount of in-house data. In this
paper, we propose a clean and general framework to learn semantics directly
from speech with semi-supervision from transcribed or untranscribed speech to
address these issues. Our framework is built upon pretrained end-to-end (E2E)
ASR and self-supervised language models, such as BERT, and fine-tuned on a
limited amount of target SLU data. We study two semi-supervised settings for
the ASR component: supervised pretraining on transcribed speech, and
unsupervised pretraining by replacing the ASR encoder with self-supervised
speech representations, such as wav2vec. In parallel, we identify two essential
criteria for evaluating SLU models: environmental noise-robustness and E2E
semantics evaluation. Experiments on ATIS show that our SLU framework with
speech as input can perform on par with those using oracle text as input in
semantics understanding, even though environmental noise is present and a
limited amount of labeled semantics data is available for training.
- Abstract(参考訳): モデルがオラクルテキスト入力でトレーニングされ、ASRエラーが無視されたこと、モデルがスロット値なしで意図のみを予測するようにトレーニングされたこと、モデルが大量の社内データでトレーニングされたこと、の3つの方法のうちの1つが、SLU(Spoken Language Understanding)に関する最近の研究である。
本稿では,文章の書き起こしや書き起こしのない音声から直接意味を学習し,これらの問題に対処するクリーンで汎用的な枠組みを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られたターゲットSLUデータに基づいて微調整される。
我々は,asrエンコーダをwav2vecなどの自己教師付き音声表現に置き換えることで,asrコンポーネントの教師付き事前学習と教師なし事前学習の2つの半教師付き設定について検討した。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価がある。
ATISの実験では、環境ノイズがあり、ラベル付きセマンティクスデータが限られた量であっても、音声を入力とするSLUフレームワークが、セマンティクス理解の入力としてオラクルテキストを使用する場合と同等に動作できることが示されている。
関連論文リスト
- Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。