論文の概要: Building Robust Spoken Language Understanding by Cross Attention between
Phoneme Sequence and ASR Hypothesis
- arxiv url: http://arxiv.org/abs/2203.12067v1
- Date: Tue, 22 Mar 2022 21:59:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 04:34:36.588376
- Title: Building Robust Spoken Language Understanding by Cross Attention between
Phoneme Sequence and ASR Hypothesis
- Title(参考訳): 音素系列とASR仮説の相互注意によるロバスト音声言語理解の構築
- Authors: Zexun Wang, Yuquan Le, Yi Zhu, Yuming Zhao, Mingchao Feng, Meng Chen,
Xiaodong He
- Abstract要約: 本稿では,SLU用クロスアテンションモデル(CASLU)を提案する。
クロスアテンションブロックは、音素と単語の埋め込みのきめ細かい相互作用をキャッチし、共同表現が入力の音素的特徴と意味的特徴を同時にキャッチできるようにする。
大規模な実験を3つのデータセットで実施し,提案手法の有効性と競争性を示した。
- 参考スコア(独自算出の注目度): 15.159439853075645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building Spoken Language Understanding (SLU) robust to Automatic Speech
Recognition (ASR) errors is an essential issue for various voice-enabled
virtual assistants. Considering that most ASR errors are caused by phonetic
confusion between similar-sounding expressions, intuitively, leveraging the
phoneme sequence of speech can complement ASR hypothesis and enhance the
robustness of SLU. This paper proposes a novel model with Cross Attention for
SLU (denoted as CASLU). The cross attention block is devised to catch the
fine-grained interactions between phoneme and word embeddings in order to make
the joint representations catch the phonetic and semantic features of input
simultaneously and for overcoming the ASR errors in downstream natural language
understanding (NLU) tasks. Extensive experiments are conducted on three
datasets, showing the effectiveness and competitiveness of our approach.
Additionally, We also validate the universality of CASLU and prove its
complementarity when combining with other robust SLU techniques.
- Abstract(参考訳): 音声認識(ASR)エラーに頑健な音声言語理解(SLU)を構築することは、音声対応バーチャルアシスタントにとって重要な問題である。
ほとんどのASR誤りは、類似した音声表現間の音声的混同によるものであるので、直感的には、音声の音素シーケンスを活用することで、ASR仮説を補完し、SLUの堅牢性を高めることができる。
本稿では,SLU用クロスアテンションモデル(CASLU)を提案する。
クロスアテンションブロックは音素と単語の埋め込みのきめ細かい相互作用を捉えるために考案され、共同表現が入力の音素的・意味的な特徴を同時にキャッチし、下流自然言語理解(NLU)タスクにおけるASRエラーを克服する。
3つのデータセットで広範な実験を行い、このアプローチの有効性と競争力を示した。
さらに、我々はCASLUの普遍性を検証し、他の堅牢なSLU技術と組み合わせてその相補性を証明する。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。