論文の概要: Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2112.06743v1
- Date: Mon, 13 Dec 2021 15:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:12:02.792086
- Title: Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding
- Title(参考訳): マルチターンエンドツーエンド音声言語理解のための注意的コンテキストキャリオーバー
- Authors: Kai Wei, Thanh Tran, Feng-Ju Chang, Kanthashree Mysore Sathyendra,
Thejaswi Muniyappa, Jing Liu, Anirudh Raju, Ross McGowan, Nathan Susanj,
Ariya Rastrow, Grant P. Strimel
- Abstract要約: 本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
- 参考スコア(独自算出の注目度): 14.157311972146692
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent years have seen significant advances in end-to-end (E2E) spoken
language understanding (SLU) systems, which directly predict intents and slots
from spoken audio. While dialogue history has been exploited to improve
conventional text-based natural language understanding systems, current E2E SLU
approaches have not yet incorporated such critical contextual signals in
multi-turn and task-oriented dialogues. In this work, we propose a contextual
E2E SLU model architecture that uses a multi-head attention mechanism over
encoded previous utterances and dialogue acts (actions taken by the voice
assistant) of a multi-turn dialogue. We detail alternative methods to integrate
these contexts into the state-ofthe-art recurrent and transformer-based models.
When applied to a large de-identified dataset of utterances collected by a
voice assistant, our method reduces average word and semantic error rates by
10.8% and 12.6%, respectively. We also present results on a publicly available
dataset and show that our method significantly improves performance over a
noncontextual baseline
- Abstract(参考訳): 近年、音声から意図やスロットを直接予測するエンドツーエンド(e2e)音声言語理解(slu)システムが大幅に進歩している。
対話の歴史は、従来のテキストベースの自然言語理解システムを改善するために利用されてきたが、現在のE2E SLUアプローチでは、このような重要な文脈信号をマルチターンやタスク指向の対話に組み込んでいない。
本研究では,マルチターン対話の先行発話と対話行動(音声アシスタントによる行動)を符号化したマルチヘッドアテンション機構を用いたコンテキスト型E2E SLUモデルアーキテクチャを提案する。
我々は、これらのコンテキストを最先端のリカレントおよびトランスフォーマティブベースモデルに統合する代替手法について詳述する。
音声アシスタントが収集した発話の大規模非同定データセットに適用した場合,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
また,公開データセット上での結果を示し,この手法が非コンテキストベースラインよりも大幅に性能が向上することを示す。
関連論文リスト
- On the Use of Audio to Improve Dialogue Policies [9.35212661749004]
音声とテキストの埋め込みを組み合わせることで、音声情報を追加する新しいアーキテクチャを提案する。
実験により、音声埋め込み対応対話ポリシーがテキストベースよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-17T09:37:20Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Knowledge Augmented BERT Mutual Network in Multi-turn Spoken Dialogues [6.4144180888492075]
本稿では,2つのSLUタスク間の対話コンテキストを相互に活用するために,BERTベースのジョイントモデルとナレッジアテンションモジュールを備えることを提案する。
さらにゲーティング機構を利用して、無関係な知識三重項をフィルタリングし、気を散らす理解を回避する。
2つの複雑なマルチターン対話データセットの実験的結果は、2つのSLUタスクをフィルター付き知識と対話コンテキストで相互にモデル化することで実証された。
論文 参考訳(メタデータ) (2022-02-23T04:03:35Z) - A Context-Aware Hierarchical BERT Fusion Network for Multi-turn Dialog
Act Detection [6.361198391681688]
CaBERT-SLUはコンテキスト対応階層型BERT融合ネットワーク(CaBERT-SLU)である
提案手法は,2つの複雑なマルチターン対話データセットにおいて,最新技術(SOTA)のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2021-09-03T02:00:03Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。