論文の概要: Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces
- arxiv url: http://arxiv.org/abs/2008.06173v1
- Date: Fri, 14 Aug 2020 02:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 17:38:35.520659
- Title: Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces
- Title(参考訳): セマンティックスへの音声:オールニューラルインタフェースによるASRとNLUの併用改善
- Authors: Milind Rao, Anirudh Raju, Pranav Dheram, Bach Bui, Ariya Rastrow
- Abstract要約: 本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
- 参考スコア(独自算出の注目度): 17.030832205343195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of spoken language understanding (SLU) of extracting
natural language intents and associated slot arguments or named entities from
speech that is primarily directed at voice assistants. Such a system subsumes
both automatic speech recognition (ASR) as well as natural language
understanding (NLU). An end-to-end joint SLU model can be built to a required
specification opening up the opportunity to deploy on hardware constrained
scenarios like devices enabling voice assistants to work offline, in a privacy
preserving manner, whilst also reducing server costs.
We first present models that extract utterance intent directly from speech
without intermediate text output. We then present a compositional model, which
generates the transcript using the Listen Attend Spell ASR system and then
extracts interpretation using a neural NLU model. Finally, we contrast these
methods to a jointly trained end-to-end joint SLU model, consisting of ASR and
NLU subsystems which are connected by a neural network based interface instead
of text, that produces transcripts as well as NLU interpretation. We show that
the jointly trained model shows improvements to ASR incorporating semantic
information from NLU and also improves NLU by exposing it to ASR confusion
encoded in the hidden layer.
- Abstract(参考訳): 音声アシスタントを主眼とする音声から自然言語の意図や関連するスロット引数や名前付きエンティティを抽出する言語理解(SLU)の問題について考察する。
このようなシステムは、音声認識(ASR)と自然言語理解(NLU)の両方を仮定する。
エンドツーエンドのジョイントSLUモデルを構築することで、音声アシスタントをオフラインで動作させるデバイスなど、ハードウェア制約のあるシナリオにデプロイする機会を確保できると同時に、サーバコストを削減できる。
まず、中間テキスト出力なしで音声から直接発話意図を抽出するモデルを提案する。
次に,リスナースペルasrシステムを用いて書き起こしを生成し,ニューラルnluモデルを用いて解釈を抽出する合成モデルを提案する。
最後に、これらの手法を、テキストの代わりにニューラルネットワークベースのインタフェースで接続されたASRとNLUサブシステムからなる、共同で訓練されたエンドツーエンドのSLUモデルと対比し、NLUの解釈と書き起こしを生成する。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。