論文の概要: NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven
Conversation
- arxiv url: http://arxiv.org/abs/2103.02548v1
- Date: Wed, 3 Mar 2021 17:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 15:03:02.283844
- Title: NaturalConv: A Chinese Dialogue Dataset Towards Multi-turn Topic-driven
Conversation
- Title(参考訳): NaturalConv: マルチターントピック駆動会話に向けた中国の対話データセット
- Authors: Xiaoyang Wang, Chen Li, Jianqiao Zhao, Dong Yu
- Abstract要約: 本稿では,中国語のマルチターントピック駆動会話データセットであるNaturalConvを提案する。
コーパスには6つのドメインから19.9kの会話があり、平均ターン数20.1の400kの発話がある。
- 参考スコア(独自算出の注目度): 25.172938128539418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a Chinese multi-turn topic-driven conversation
dataset, NaturalConv, which allows the participants to chat anything they want
as long as any element from the topic is mentioned and the topic shift is
smooth. Our corpus contains 19.9K conversations from six domains, and 400K
utterances with an average turn number of 20.1. These conversations contain
in-depth discussions on related topics or widely natural transition between
multiple topics. We believe either way is normal for human conversation. To
facilitate the research on this corpus, we provide results of several benchmark
models. Comparative results show that for this dataset, our current models are
not able to provide significant improvement by introducing background
knowledge/topic. Therefore, the proposed dataset should be a good benchmark for
further research to evaluate the validity and naturalness of multi-turn
conversation systems. Our dataset is available at
https://ai.tencent.com/ailab/nlp/dialogue/#datasets.
- Abstract(参考訳): 本稿では,トピックの要素が言及され,トピックシフトがスムーズである限り,参加者が望むものを何でもチャットできる,中国のマルチターンのトピック駆動型会話データセットであるnaturalconvを提案する。
コーパスには6つのドメインから19.9kの会話があり、平均ターン数20.1の400kの発話がある。
これらの会話には、関連するトピックに関する詳細な議論、または複数のトピック間の広く自然な移行が含まれます。
どちらの方法も人間の会話には普通だと信じています。
このコーパスの研究を容易にするために、いくつかのベンチマークモデルの結果を提供する。
比較の結果,本データセットでは,背景知識やトピックを導入することで,現在のモデルでは大幅な改善が得られていないことがわかった。
したがって,提案するデータセットは,マルチターン会話システムの妥当性と自然性を評価するためのさらなる研究に適したベンチマークであるべきである。
データセットはhttps://ai.tencent.com/ailab/nlp/dialogue/#datasetsで入手できます。
関連論文リスト
- NewsDialogues: Towards Proactive News Grounded Conversation [72.10055780635625]
本稿では,対話システムがニュースの重要な話題に基づいて会話を積極的にリードする新しいタスク,Proactive News Grounded Conversationを提案する。
この課題をさらに発展させるために、人間と人間の対話データセットtsNewsDialoguesを収集し、合計14.6Kの発話を含む1Kの会話を含む。
論文 参考訳(メタデータ) (2023-08-12T08:33:42Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Findings on Conversation Disentanglement [28.874162427052905]
発話から発話への分類と発話からスレッドへの分類を学習する学習モデルを構築した。
Ubuntu IRCデータセットの実験は、このアプローチが従来の欲求的アプローチを上回る可能性があることを示している。
論文 参考訳(メタデータ) (2021-12-10T05:54:48Z) - TopiOCQA: Open-domain Conversational Question Answeringwith Topic
Switching [11.717296856448566]
トピックスイッチ付きオープンドメイン会話データセットであるTopiOCQAをWikipediaで紹介する。
TopiOCQAには3,920の会話と情報検索の質問と自由形式の回答が含まれている。
我々は、最先端の文書検索手法とニューラルリーダーモデルを組み合わせることで、いくつかのベースラインを評価する。
論文 参考訳(メタデータ) (2021-10-02T09:53:48Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - MultiTalk: A Highly-Branching Dialog Testbed for Diverse Conversations [39.81965687032923]
会話対話文のコーパスであるMultiTalkデータセットについて述べる。
高分岐環境におけるダイアログ生成の研究に複数の貢献をしている。
我々の達成課題は心の問題の挑戦的理論であり、制御可能な生成課題である。
論文 参考訳(メタデータ) (2021-02-02T02:29:40Z) - Response Selection for Multi-Party Conversations with Dynamic Topic
Tracking [63.15158355071206]
我々は、応答と関連する会話コンテキストの間のトピックを一致させるために、動的トピック追跡タスクとして応答選択をフレーム化する。
本研究では,大規模な事前学習モデルによる効率的な符号化を支援する新しいマルチタスク学習フレームワークを提案する。
DSTC-8 Ubuntu IRCデータセットの実験結果は、応答選択とトピックのアンタングル化タスクにおける最先端の結果を示している。
論文 参考訳(メタデータ) (2020-10-15T14:21:38Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。