論文の概要: Integrating Dialog History into End-to-End Spoken Language Understanding
Systems
- arxiv url: http://arxiv.org/abs/2108.08405v1
- Date: Wed, 18 Aug 2021 22:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 14:21:01.267308
- Title: Integrating Dialog History into End-to-End Spoken Language Understanding
Systems
- Title(参考訳): 対話履歴をエンドツーエンドの音声言語理解システムに統合する
- Authors: Jatin Ganhotra, Samuel Thomas, Hong-Kwang J. Kuo, Sachindra Joshi,
George Saon, Zolt\'an T\"uske, Brian Kingsbury
- Abstract要約: 対話履歴の重要性と、それをエンドツーエンドの音声言語理解システムに効果的に組み込む方法について検討する。
音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。
我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 37.08876551722831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) systems that process
human-human or human-computer interactions are often context independent and
process each turn of a conversation independently. Spoken conversations on the
other hand, are very much context dependent, and dialog history contains useful
information that can improve the processing of each conversational turn. In
this paper, we investigate the importance of dialog history and how it can be
effectively integrated into end-to-end SLU systems. While processing a spoken
utterance, our proposed RNN transducer (RNN-T) based SLU model has access to
its dialog history in the form of decoded transcripts and SLU labels of
previous turns. We encode the dialog history as BERT embeddings, and use them
as an additional input to the SLU model along with the speech features for the
current utterance. We evaluate our approach on a recently released spoken
dialog data set, the HarperValleyBank corpus. We observe significant
improvements: 8% for dialog action and 30% for caller intent recognition tasks,
in comparison to a competitive context independent end-to-end baseline system.
- Abstract(参考訳): ヒューマン・ヒューマン・コンピュータ・インタラクションを処理するエンドツーエンドの音声言語理解(SLU)システムはコンテキストに依存しないことが多く、会話の各ターンを独立して処理する。
一方、会話は文脈に依存しており、対話履歴には各会話の順番の処理を改善する有用な情報が含まれている。
本稿では,対話履歴の重要性と,それをエンドツーエンドのSLUシステムに統合する方法について検討する。
音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。
対話履歴をBERT埋め込みとしてエンコードし、SLUモデルへの追加入力として、現在の発話の音声特徴とともに使用する。
我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
対話行動の8%, 発声意図認識タスクの30%, 競合する文脈に依存しないエンドツーエンドベースラインシステムと比較して, 大幅な改善が見られた。
関連論文リスト
- Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - Adapting Text-based Dialogue State Tracker for Spoken Dialogues [20.139351605832665]
本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
論文 参考訳(メタデータ) (2023-08-29T06:27:58Z) - Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History [30.20353302347147]
本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。
本実験は,タスク固有分類器と類似した結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-01T16:26:18Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - UniDS: A Unified Dialogue System for Chit-Chat and Task-oriented
Dialogues [59.499965460525694]
上記の2つのスキルを備えた統合対話システム(UniDS)を提案する。
我々は、チャットとタスク指向の対話の両方に対応可能な統合対話データスキーマを設計する。
我々は、事前訓練されたチャット対話モデルから混合対話データでUniDSを訓練する。
論文 参考訳(メタデータ) (2021-10-15T11:56:47Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - A Context-Aware Hierarchical BERT Fusion Network for Multi-turn Dialog
Act Detection [6.361198391681688]
CaBERT-SLUはコンテキスト対応階層型BERT融合ネットワーク(CaBERT-SLU)である
提案手法は,2つの複雑なマルチターン対話データセットにおいて,最新技術(SOTA)のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2021-09-03T02:00:03Z) - Domain State Tracking for a Simplified Dialogue System [3.962145079528281]
対話履歴全体ではなく,入力コンテキストを簡略化したタスク指向対話システムであるdotsを提案する。
DoTSは、MultiWOZの以前の最先端モデルと比較して、それぞれ1.09ポイントと1.24ポイントのインフォメーションレートと成功率を改善する。
論文 参考訳(メタデータ) (2021-03-11T13:00:54Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。