論文の概要: SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue in Multiple Domains
- arxiv url: http://arxiv.org/abs/2305.13040v1
- Date: Mon, 22 May 2023 13:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:44:02.039910
- Title: SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue in Multiple Domains
- Title(参考訳): SpokenWoZ: 複数のドメインにおけるタスク指向対話のための大規模音声テキストベンチマーク
- Authors: Shuzheng Si, Wentao Ma, Yuchuan Wu, Yinpei Dai, Haoyu Gao, Ting-En
Lin, Hangyu Li, Rui Yan, Fei Huang, Yongbin Li
- Abstract要約: SpokenWOZは音声TODのための大規模音声テキストデータセットである。
クロスターンスロットと推論スロットの検出は、音声言語現象に基づく新しい課題である。
- 参考スコア(独自算出の注目度): 51.94312296564659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialogue (TOD) models have great progress in the past few
years. However, these studies primarily focus on datasets written by
annotators, which has resulted in a gap between academic research and more
realistic spoken conversation scenarios. While a few small-scale spoken TOD
datasets are proposed to address robustness issues, e.g., ASR errors, they fail
to identify the unique challenges in spoken conversation. To tackle the
limitations, we introduce SpokenWOZ, a large-scale speech-text dataset for
spoken TOD, which consists of 8 domains, 203k turns, 5.7k dialogues and 249
hours of audios from human-to-human spoken conversations. SpokenWOZ
incorporates common spoken characteristics such as word-by-word processing and
commonsense reasoning. We also present cross-turn slot and reasoning slot
detection as new challenges based on the spoken linguistic phenomena. We
conduct comprehensive experiments on various models, including text-modal
baselines, newly proposed dual-modal baselines and LLMs. The results show the
current models still has substantial areas for improvement in spoken
conversation, including fine-tuned models and LLMs, i.e., ChatGPT.
- Abstract(参考訳): タスク指向対話(TOD)モデルはここ数年で大きな進歩を遂げています。
しかし、これらの研究は主にアノテータによって書かれたデータセットに焦点を当てており、学術研究とより現実的な会話シナリオの間にギャップが生じている。
いくつかの小規模のTODデータセットは、例えばASRエラーのようなロバストネスの問題に対処するために提案されているが、音声会話における固有の課題を特定することに失敗している。
この制限に対処するために,speakwozという,8つのドメイン,203kのターン,5.7kの対話,249時間の音声対話からなる,音声todのための大規模音声テキストデータセットを紹介する。
SpokenWOZは、ワード・バイ・ワード処理や常識推論といった一般的な音声特徴を取り入れている。
また,言語現象に基づく新たな課題として,クロスターンスロットと推論スロット検出を提案する。
我々は,テキストモーダルベースライン,新たに提案されたデュアルモーダルベースライン,LLMなど,さまざまなモデルの総合的な実験を行う。
その結果、現在のモデルには、微調整されたモデルやLLM、すなわちChatGPTなど、音声会話の改善のためのかなりの領域があることが示された。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Retrieval Augmented End-to-End Spoken Dialog Models [20.896330994089283]
音声信号から直接ダイアログ状態が推測される音声対話アプリケーションにSLMを適用する。
RAG(retrieval-augmented generation)パラダイムにヒントを得て,この弱点を克服する検索拡張SLM(ReSLM)を提案する。
音声MultipleWozタスク(DSTC-11チャレンジ)を用いてReSLMを評価し,この検索によりモデル性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-02-02T18:23:09Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue
Modeling on Spoken Conversations [24.245354500835465]
本稿では,音声対話におけるタスク指向対話モデリングの堅牢性を高めるために,新しいモデルに依存しないデータ拡張パラダイムを提案する。
本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて,第1位となった。
論文 参考訳(メタデータ) (2021-12-23T10:04:25Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。