論文の概要: RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling
- arxiv url: http://arxiv.org/abs/2010.08738v1
- Date: Sat, 17 Oct 2020 08:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 11:47:35.912539
- Title: RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling
- Title(参考訳): RiSAWOZ:タスク指向対話モデリングのためのリッチセマンティックアノテーション付き大規模マルチドメイン・ウィザード・オブ・オズのデータセット
- Authors: Jun Quan, Shian Zhang, Qian Cao, Zizhong Li and Deyi Xiong
- Abstract要約: RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
- 参考スコア(独自算出の注目度): 35.75880078666584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to alleviate the shortage of multi-domain data and to capture
discourse phenomena for task-oriented dialogue modeling, we propose RiSAWOZ, a
large-scale multi-domain Chinese Wizard-of-Oz dataset with Rich Semantic
Annotations. RiSAWOZ contains 11.2K human-to-human (H2H) multi-turn
semantically annotated dialogues, with more than 150K utterances spanning over
12 domains, which is larger than all previous annotated H2H conversational
datasets. Both single- and multi-domain dialogues are constructed, accounting
for 65% and 35%, respectively. Each dialogue is labeled with comprehensive
dialogue annotations, including dialogue goal in the form of natural language
description, domain, dialogue states and acts at both the user and system side.
In addition to traditional dialogue annotations, we especially provide
linguistic annotations on discourse phenomena, e.g., ellipsis and coreference,
in dialogues, which are useful for dialogue coreference and ellipsis resolution
tasks. Apart from the fully annotated dataset, we also present a detailed
description of the data collection procedure, statistics and analysis of the
dataset. A series of benchmark models and results are reported, including
natural language understanding (intent detection & slot filling), dialogue
state tracking and dialogue context-to-text generation, as well as coreference
and ellipsis resolution, which facilitate the baseline comparison for future
research on this corpus.
- Abstract(参考訳): タスク指向対話モデリングにおけるマルチドメインデータの不足を軽減し,談話現象を捉えるために,Rich Semantic Annotationsを用いた大規模マルチドメイン中国語ウィザード・オブ・オズのデータセットRiSAWOZを提案する。
RiSAWOZは11.2Kの人間対人間(H2H)のマルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話は、以前のすべてのアノテートH2H会話データセットよりも大きい。
シングルドメインとマルチドメインの両方の対話が構築され、それぞれ65%と35%を占めている。
各対話には、自然言語記述、ドメイン、対話状態、およびユーザ側とシステム側の両方で行動する対話目標を含む包括的な対話アノテーションがラベル付けされる。
従来の対話アノテーションに加えて,対話のコリファレンスやエリプシ解決タスクに有用な対話において,対話現象(例えば,エリプシとコリファレンス)に関する言語アノテーションを特に提供する。
完全注釈付きデータセットとは別に、データセットのデータ収集手順、統計、分析の詳細な記述も提示する。
自然言語理解(インテント検出とスロットフィリング)、対話状態の追跡と対話コンテキストのテキスト生成、コア参照と楕円解法など、一連のベンチマークモデルと結果が報告され、このコーパスに関する今後の研究のベースライン比較が容易になる。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Dialogue Term Extraction using Transfer Learning and Topological Data
Analysis [0.8185867455104834]
我々は、純粋にデータ駆動方式で対話におけるドメイン、スロット、値の認識を可能にするさまざまな機能を探究する。
各特徴セットの有用性を検討するために、広く使われているMultiWOZデータセットに基づいてシードモデルを訓練する。
提案手法は,単語の埋め込みのみに依存する従来の手法よりも優れている。
論文 参考訳(メタデータ) (2022-08-22T17:04:04Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z) - CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset [58.910961297314415]
CrossWOZは、中国のCross-Domain Wizard-of-Ozタスク指向データセットとしては初めての大規模である。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
論文 参考訳(メタデータ) (2020-02-27T03:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。