論文の概要: End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model
- arxiv url: http://arxiv.org/abs/2204.14272v1
- Date: Fri, 29 Apr 2022 17:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 13:37:34.631090
- Title: End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model
- Title(参考訳): エンドツーエンドの会話質問応答:タスク,データセット,モデル
- Authors: Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou
- Abstract要約: 音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
- 参考スコア(独自算出の注目度): 92.18621726802726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In spoken question answering, the systems are designed to answer questions
from contiguous text spans within the related speech transcripts. However, the
most natural way that human seek or test their knowledge is via human
conversations. Therefore, we propose a new Spoken Conversational Question
Answering task (SCQA), aiming at enabling the systems to model complex dialogue
flows given the speech documents. In this task, our main objective is to build
the system to deal with conversational questions based on the audio recordings,
and to explore the plausibility of providing more cues from different
modalities with systems in information gathering. To this end, instead of
directly adopting automatically generated speech transcripts with highly noisy
data, we propose a novel unified data distillation approach, DDNet, which
effectively ingests cross-modal information to achieve fine-grained
representations of the speech and language modalities. Moreover, we propose a
simple and novel mechanism, termed Dual Attention, by encouraging better
alignments between audio and text to ease the process of knowledge transfer. To
evaluate the capacity of SCQA systems in a dialogue-style interaction, we
assemble a Spoken Conversational Question Answering (Spoken-CoQA) dataset with
more than 40k question-answer pairs from 4k conversations. The performance of
the existing state-of-the-art methods significantly degrade on our dataset,
hence demonstrating the necessity of cross-modal information integration. Our
experimental results demonstrate that our proposed method achieves superior
performance in spoken conversational question answering tasks.
- Abstract(参考訳): 音声質問応答では、システムは関連する音声書き起こし内の連続したテキストスパンからの質問に答えるように設計されている。
しかし、人間が知識を探ったり、試したりする最も自然な方法は、人間の会話である。
そこで本研究では,音声文書から複雑な対話フローをモデル化することを目的とした音声対話質問応答タスク(scqa)を提案する。
本研究の目的は,音声記録に基づく対話型質問処理システムの構築と,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
そこで本研究では,高ノイズなデータを持つ音声書き起こしを自動生成する代わりに,モーダル情報を効果的に取り込み,よりきめ細かな音声・言語モダリティ表現を実現する,新しい統一型データ蒸留手法DDNetを提案する。
さらに,音声とテキストのアライメントを向上し,知識伝達のプロセスを容易にする,シンプルで斬新な機構であるDual Attentionを提案する。
対話型対話におけるSCQAシステムの能力を評価するために,4k会話から40万以上の質問応答対を持つ音声対話型質問応答データセット(Spoken-CoQA)を作成した。
既存の最先端手法の性能は,我々のデータセットで著しく低下しているため,クロスモーダル情報統合の必要性が示される。
提案手法は,対話型質問応答タスクにおいて優れた性能が得られることを示す。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Integrating Dialog History into End-to-End Spoken Language Understanding
Systems [37.08876551722831]
対話履歴の重要性と、それをエンドツーエンドの音声言語理解システムに効果的に組み込む方法について検討する。
音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。
我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-08-18T22:24:11Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - BERT-CoQAC: BERT-based Conversational Question Answering in Context [10.811729691130349]
履歴変換をシステム内に組み込むためのBERTという,パブリックに利用可能なプリトレーニング言語モデルに基づくフレームワークを紹介する。
実験の結果,我々のフレームワークはQuACリーダボードの最先端モデルと同等の性能を示した。
論文 参考訳(メタデータ) (2021-04-23T03:05:17Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。