論文の概要: CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset
- arxiv url: http://arxiv.org/abs/2002.11893v2
- Date: Fri, 28 Feb 2020 06:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 08:42:14.784901
- Title: CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset
- Title(参考訳): CrossWOZ: 大規模中国のクロスドメインタスク指向対話データセット
- Authors: Qi Zhu, Kaili Huang, Zheng Zhang, Xiaoyan Zhu, Minlie Huang
- Abstract要約: CrossWOZは、中国のCross-Domain Wizard-of-Ozタスク指向データセットとしては初めての大規模である。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
- 参考スコア(独自算出の注目度): 58.910961297314415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To advance multi-domain (cross-domain) dialogue modeling as well as alleviate
the shortage of Chinese task-oriented datasets, we propose CrossWOZ, the first
large-scale Chinese Cross-Domain Wizard-of-Oz task-oriented dataset. It
contains 6K dialogue sessions and 102K utterances for 5 domains, including
hotel, restaurant, attraction, metro, and taxi. Moreover, the corpus contains
rich annotation of dialogue states and dialogue acts at both user and system
sides. About 60% of the dialogues have cross-domain user goals that favor
inter-domain dependency and encourage natural transition across domains in
conversation. We also provide a user simulator and several benchmark models for
pipelined task-oriented dialogue systems, which will facilitate researchers to
compare and evaluate their models on this corpus. The large size and rich
annotation of CrossWOZ make it suitable to investigate a variety of tasks in
cross-domain dialogue modeling, such as dialogue state tracking, policy
learning, user simulation, etc.
- Abstract(参考訳): マルチドメイン(クロスドメイン)対話モデリングを推進し、中国のタスク指向データセットの不足を軽減するため、中国初の大規模なクロスドメインウィザード・オブ・オズタスク指向データセットであるCrossWOZを提案する。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
さらに、コーパスにはユーザー側とシステム側の両方で対話状態と対話動作の豊富なアノテーションが含まれている。
会話の約60%はドメイン間の依存性を優先し、会話中のドメイン間の自然な遷移を促進するクロスドメインユーザー目標を持っています。
また,パイプライン化されたタスク指向対話システムのためのユーザシミュレータとベンチマークモデルを提供し,このコーパス上でのモデルの比較と評価を容易にする。
CrossWOZの大きなサイズと豊富なアノテーションは、対話状態追跡、ポリシー学習、ユーザシミュレーションなど、クロスドメイン対話モデリングにおける様々なタスクを調査するのに適しています。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - A Slot Is Not Built in One Utterance: Spoken Language Dialogs with
Sub-Slots [67.69407159704328]
本稿では,SSTOD(Sub-Slot based Task-Oriented Dialog)というタスクを新たに定義する。
データセットには、中国名、電話番号、ID番号、ナンバープレート番号の4つのドメインから合計40Kのダイアログと500Kの発話が含まれている。
我々はSSTODに新たな言語現象と対話的方法を見いだし、タスクのためのダイアログエージェントを構築する上で重要な課題を提起する。
論文 参考訳(メタデータ) (2022-03-21T07:10:19Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - UniConv: A Unified Conversational Neural Architecture for Multi-domain
Task-oriented Dialogues [101.96097419995556]
ユニコンブ」はタスク指向対話におけるエンドツーエンド対話システムのための新しい統合型ニューラルネットワークである。
我々は、MultiWOZ2.1ベンチマークにおいて、対話状態追跡、コンテキスト・ツー・テキスト、エンドツーエンド設定の包括的な実験を行う。
論文 参考訳(メタデータ) (2020-04-29T16:28:22Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z) - MA-DST: Multi-Attention Based Scalable Dialog State Tracking [13.358314140896937]
ダイアログ状態追跡ダイアログは、ユーザーが目標を達成するための自然言語インターフェースを提供する。
正確なマルチドメインDSTを実現するためには、過去の発話とスロットセマンティクス間の依存関係をエンコードする必要がある。
本稿では,会話履歴とスロットの意味を符号化する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-07T05:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。