論文の概要: SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents
- arxiv url: http://arxiv.org/abs/2305.13040v3
- Date: Mon, 24 Jul 2023 03:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 21:17:25.188116
- Title: SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents
- Title(参考訳): SpokenWOZ:タスク指向対話エージェントのための大規模音声テキストベンチマーク
- Authors: Shuzheng Si, Wentao Ma, Haoyu Gao, Yuchuan Wu, Ting-En Lin, Yinpei
Dai, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li
- Abstract要約: SpokenWOZは音声TODのための大規模音声テキストデータセットである。
クロスターンスロットと推論スロット検出は、新しい課題として提示される。
- 参考スコア(独自算出の注目度): 51.94312296564659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialogue (TOD) models have made significant progress in recent
years. However, previous studies primarily focus on datasets written by
annotators, which has resulted in a gap between academic research and
real-world spoken conversation scenarios. While several small-scale spoken TOD
datasets are proposed to address robustness issues such as ASR errors, they
ignore the unique challenges in spoken conversation. To tackle the limitations,
we introduce SpokenWOZ, a large-scale speech-text dataset for spoken TOD,
containing 8 domains, 203k turns, 5.7k dialogues and 249 hours of audios from
human-to-human spoken conversations. SpokenWOZ further incorporates common
spoken characteristics such as word-by-word processing and reasoning in spoken
language. Based on these characteristics, we present cross-turn slot and
reasoning slot detection as new challenges. We conduct experiments on various
baselines, including text-modal models, newly proposed dual-modal models, and
LLMs, e.g., ChatGPT. The results show that the current models still have
substantial room for improvement in spoken conversation, where the most
advanced dialogue state tracker only achieves 25.65% in joint goal accuracy and
the SOTA end-to-end model only correctly completes the user request in 52.1% of
dialogues. The dataset, code, and leaderboard are available:
https://spokenwoz.github.io/SpokenWOZ-github.io/.
- Abstract(参考訳): タスク指向対話(TOD)モデルは近年大きな進歩を遂げている。
しかし,従来の研究は主にアノテータによるデータセットに焦点を当てており,学術研究と実世界の会話シナリオのギャップが生じた。
いくつかの小規模音声TODデータセットは、ASRエラーなどの堅牢性問題に対処するために提案されているが、音声会話におけるユニークな課題は無視されている。
この制限に対処するために,8つのドメイン,203kのターン,5.7kの対話,対人会話からの249時間の音声を含む,音声TODのための大規模音声テキストデータセットであるSpkenWOZを導入する。
SpokenWOZはさらに、音声言語における単語間処理や推論などの一般的な音声特徴を取り入れている。
これらの特徴に基づき,新たな課題としてクロスターンスロットと推論スロット検出を提案する。
テキストモーダルモデル,新たに提案されたデュアルモーダルモデル,LLM,例えばChatGPTなど,さまざまなベースライン上で実験を行う。
その結果、最も先進的な対話状態追跡装置は、結合目標精度が25.65%しか達成できず、somaエンドツーエンドモデルでは52.1%の対話でユーザ要求を正しく完了している。
データセット、コード、およびリーダーボードは、https://spokenwoz.github.io/SpokenWOZ-github.io/で入手できる。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Retrieval Augmented End-to-End Spoken Dialog Models [20.896330994089283]
音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-02-02T18:23:09Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue
Modeling on Spoken Conversations [24.245354500835465]
本稿では,音声対話におけるタスク指向対話モデリングの堅牢性を高めるために,新しいモデルに依存しないデータ拡張パラダイムを提案する。
本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて,第1位となった。
論文 参考訳(メタデータ) (2021-12-23T10:04:25Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。