論文の概要: Molweni: A Challenge Multiparty Dialogues-based Machine Reading
Comprehension Dataset with Discourse Structure
- arxiv url: http://arxiv.org/abs/2004.05080v3
- Date: Sat, 7 Nov 2020 08:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 20:52:38.458045
- Title: Molweni: A Challenge Multiparty Dialogues-based Machine Reading
Comprehension Dataset with Discourse Structure
- Title(参考訳): molweni: 談話構造を持つ多人数対話型機械読解データセットへの挑戦
- Authors: Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang
Lei, Ting Liu and Bing Qin
- Abstract要約: Molweniはマルチパーティダイアログ上に構築された談話構造を備えた機械読解データセットである。
我々の実験は、Molweniが現在のMCCモデルの挑戦的なデータセットであることを示している。
- 参考スコア(独自算出の注目度): 35.92836091286366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research into the area of multiparty dialog has grown considerably over
recent years. We present the Molweni dataset, a machine reading comprehension
(MRC) dataset with discourse structure built over multiparty dialog. Molweni's
source samples from the Ubuntu Chat Corpus, including 10,000 dialogs comprising
88,303 utterances. We annotate 30,066 questions on this corpus, including both
answerable and unanswerable questions. Molweni also uniquely contributes
discourse dependency annotations in a modified Segmented Discourse
Representation Theory (SDRT; Asher et al., 2016) style for all of its
multiparty dialogs, contributing large-scale (78,245 annotated discourse
relations) data to bear on the task of multiparty dialog discourse parsing. Our
experiments show that Molweni is a challenging dataset for current MRC models:
BERT-wwm, a current, strong SQuAD 2.0 performer, achieves only 67.7% F1 on
Molweni's questions, a 20+% significant drop as compared against its SQuAD 2.0
performance.
- Abstract(参考訳): 近年,多人数対話の分野の研究が盛んに行われている。
マルチパーティダイアログ上に構築された談話構造を持つ機械読解データセットであるMolweniデータセットを提案する。
molweniのソースサンプルはubuntuチャットコーパスにあり、88,303発話からなる10,000のダイアログが含まれている。
私たちはこのコーパスについて30,066の質問を注釈付けします。
モルウェニはまた、修正されたSegmented Discourse Representation Theory (SDRT; Asher et al., 2016) スタイルで、マルチパーティダイアログのすべてのダイアログに対して、談話依存アノテーションをユニークな形で提供し、マルチパーティダイアログパーシングのタスクに対処するための大規模な(78,245 の注釈付きディスコース関係)データを提供している。
私たちの実験では、molweniは現在のmrcモデルの挑戦的なデータセットであることが示されています。現在の強力なsquad 2.0パフォーマンスであるbert-wwmは、molweniの質問に対してわずか67.7%のf1を達成しています。
関連論文リスト
- SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - CGoDial: A Large-Scale Benchmark for Chinese Goal-oriented Dialog
Evaluation [75.60156479374416]
CGoDialは、Goal指向のダイアログ評価のための、新しい挑戦的で包括的な中国のベンチマークである。
96,763のダイアログセッションと574,949のダイアログがすべて含まれており、異なる知識ソースを持つ3つのデータセットをカバーする。
学術ベンチマークと音声対話のシナリオのギャップを埋めるために、実際の会話からデータを収集したり、クラウドソーシングを通じて既存のデータセットに音声機能を追加する。
論文 参考訳(メタデータ) (2022-11-21T16:21:41Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。