論文の概要: Towards Semi-Supervised Semantics Understanding from Speech
- arxiv url: http://arxiv.org/abs/2011.06195v1
- Date: Wed, 11 Nov 2020 01:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 22:58:02.246441
- Title: Towards Semi-Supervised Semantics Understanding from Speech
- Title(参考訳): 半教師付き意味理解に向けて
- Authors: Cheng-I Lai, Jin Cao, Sravan Bodapati, Shang-Wen Li
- Abstract要約: そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
- 参考スコア(独自算出の注目度): 15.672850567147854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much recent work on Spoken Language Understanding (SLU) falls short in at
least one of three ways: models were trained on oracle text input and neglected
the Automatics Speech Recognition (ASR) outputs, models were trained to predict
only intents without the slot values, or models were trained on a large amount
of in-house data. We proposed a clean and general framework to learn semantics
directly from speech with semi-supervision from transcribed speech to address
these. Our framework is built upon pretrained end-to-end (E2E) ASR and
self-supervised language models, such as BERT, and fine-tuned on a limited
amount of target SLU corpus. In parallel, we identified two inadequate settings
under which SLU models have been tested: noise-robustness and E2E semantics
evaluation. We tested the proposed framework under realistic environmental
noises and with a new metric, the slots edit F1 score, on two public SLU
corpora. Experiments show that our SLU framework with speech as input can
perform on par with those with oracle text as input in semantics understanding,
while environmental noises are present, and a limited amount of labeled
semantics data is available.
- Abstract(参考訳): モデルがオラクルテキスト入力で訓練され、自動音声認識(ASR)出力を無視されたり、スロット値のない意図のみを予測するためにモデルが訓練されたり、あるいはモデルが大量の社内データで訓練されたりした。
そこで本稿では,音声から意味論を直接学習する,クリーンで汎用的なフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
並行して、SLUモデルが試験された2つの不適切な設定、すなわちノイズロストネスとE2Eセマンティクスの評価を同定した。
提案手法を現実的な環境騒音下でテストし, スロットがF1スコアを編集し, 2つの公的なSLUコーパスを用いた。
実験により, 音声を入力とするSLUフレームワークは, セマンティクス理解における入力としてオラクルテキストと同等に動作し, 環境騒音も発生し, ラベル付きセマンティクスデータが限られた量で利用できることがわかった。
関連論文リスト
- Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。