論文の概要: What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!?
- arxiv url: http://arxiv.org/abs/2203.03431v1
- Date: Mon, 7 Mar 2022 14:26:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 16:20:17.955793
- Title: What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!?
- Title(参考訳): 何て言ったの?
Task-Oriented Dialog Datasetsは会話的ではない!?
- Authors: Alice Shoshana Jakobovits, Francesco Piccinno and Yasemin Altun
- Abstract要約: 我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
- 参考スコア(独自算出の注目度): 4.022057598291766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality datasets for task-oriented dialog are crucial for the
development of virtual assistants. Yet three of the most relevant large scale
dialog datasets suffer from one common flaw: the dialog state update can be
tracked, to a great extent, by a model that only considers the current user
utterance, ignoring the dialog history. In this work, we outline a taxonomy of
conversational and contextual effects, which we use to examine MultiWOZ, SGD
and SMCalFlow, among the most recent and widely used task-oriented dialog
datasets. We analyze the datasets in a model-independent fashion and
corroborate these findings experimentally using a strong text-to-text baseline
(T5). We find that less than 4% of MultiWOZ's turns and 10% of SGD's turns are
conversational, while SMCalFlow is not conversational at all in its current
release: its dialog state tracking task can be reduced to single exchange
semantic parsing. We conclude by outlining desiderata for truly conversational
dialog datasets.
- Abstract(参考訳): タスク指向ダイアログのための高品質なデータセットは、仮想アシスタントの開発に不可欠である。
ダイアログ状態の更新は、ダイアログ履歴を無視して、現在のユーザの発話のみを考慮するモデルによって、大幅に追跡することができる。
本稿では,近年広く使われているタスク指向の対話データセットの中で,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
データセットをモデルに依存しない方法で分析し,強固なテキスト間ベースライン(t5)を用いて実験的に照合する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話的であり、SMCalFlowは現在のリリースでは会話的ではないが、ダイアログ状態追跡タスクは単一交換セマンティックパーシングに還元できることを示した。
最後にdesiderataを真に会話的な対話データセットとして概説する。
関連論文リスト
- DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Dialog Inpainting: Turning Documents into Dialogs [12.131506050808207]
私たちは2つのデータセットを作成し、1900万の多様な情報検索ダイアログを作成しました。
WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか、あるいは優れていると判断する。
論文 参考訳(メタデータ) (2022-05-18T16:58:50Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - A Slot Is Not Built in One Utterance: Spoken Language Dialogs with
Sub-Slots [67.69407159704328]
本稿では,SSTOD(Sub-Slot based Task-Oriented Dialog)というタスクを新たに定義する。
データセットには、中国名、電話番号、ID番号、ナンバープレート番号の4つのドメインから合計40Kのダイアログと500Kの発話が含まれている。
我々はSSTODに新たな言語現象と対話的方法を見いだし、タスクのためのダイアログエージェントを構築する上で重要な課題を提起する。
論文 参考訳(メタデータ) (2022-03-21T07:10:19Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。