論文の概要: doc2dial: A Goal-Oriented Document-Grounded Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2011.06623v2
- Date: Wed, 18 Nov 2020 22:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:07:53.309736
- Title: doc2dial: A Goal-Oriented Document-Grounded Dialogue Dataset
- Title(参考訳): doc2dial:ゴール指向ドキュメント・グラウンド対話データセット
- Authors: Song Feng, Hui Wan, Chulaka Gunasekara, Siva Sankalp Patel, Sachindra
Joshi, Luis A. Lastras
- Abstract要約: doc2dialは、ドキュメントに基礎を置いたゴール指向の対話の新しいデータセットである。
まず、テキストセクション間の高レベルな関係に対応するコンテンツ要素に基づいて対話フローを構築する。
我々は,これらの対話フローを参加者に提示し,会話音声を作成する。
- 参考スコア(独自算出の注目度): 24.040517978408484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce doc2dial, a new dataset of goal-oriented dialogues that are
grounded in the associated documents. Inspired by how the authors compose
documents for guiding end users, we first construct dialogue flows based on the
content elements that corresponds to higher-level relations across text
sections as well as lower-level relations between discourse units within a
section. Then we present these dialogue flows to crowd contributors to create
conversational utterances. The dataset includes about 4800 annotated
conversations with an average of 14 turns that are grounded in over 480
documents from four domains. Compared to the prior document-grounded dialogue
datasets, this dataset covers a variety of dialogue scenes in
information-seeking conversations. For evaluating the versatility of the
dataset, we introduce multiple dialogue modeling tasks and present baseline
approaches.
- Abstract(参考訳): 本稿では,文書に基づいた新たな目標指向対話データセットである doc2dial を紹介する。
著者らがエンドユーザーを導くためにどのように文書を構成するかに触発されて、まず、テキストセクション間の上位関係に対応するコンテンツ要素と、セクション内の談話単位間の下位関係に基づいて対話フローを構築する。
次に,これらの対話フローを参加者に提示し,会話発話を作成する。
データセットには、約4800件の注釈付き会話があり、平均14回の会話は4つのドメインから480以上の文書にまとめられている。
従来の文書地上対話データセットと比較して、このデータセットは情報検索会話における様々な対話シーンをカバーしている。
データセットの汎用性を評価するために、複数の対話モデリングタスクとベースラインアプローチを導入する。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - DailyTalk: Spoken Dialogue Dataset for Conversational Text-to-Speech [4.339031624083067]
テキスト音声のための高品質な会話音声データセットであるDailyTalkを紹介する。
オープンドメイン対話データセットDailyDialogから,2,541件の対話をサンプリング,修正,記録した。
我々は,従来の業務をベースラインとして拡張し,非自己回帰的TTSがダイアログの履歴情報に基づいて条件付けされるようにした。
論文 参考訳(メタデータ) (2022-07-03T15:07:41Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - DG2: Data Augmentation Through Document Grounded Dialogue Generation [41.81030088619399]
生成対話モデルを用いて文書に基づく自動データ拡張手法を提案する。
元のデータセットを補うと、従来のデータ拡張手法よりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-15T18:50:14Z) - MultiDoc2Dial: Modeling Dialogues Grounded in Multiple Documents [14.807409907211452]
複数の文書に基盤を置き、目的指向対話をモデル化するための新しいタスクとデータセットであるMultiDoc2Dialを提案する。
4つの異なるドメインから複数のドキュメントにグラウンド化された対話を含む新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-09-26T13:12:05Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。