論文の概要: A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
- arxiv url: http://arxiv.org/abs/2004.03116v2
- Date: Mon, 2 Nov 2020 06:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:49:23.335462
- Title: A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
- Title(参考訳): 中国機械読解理解のための文クローズデータセット
- Authors: Yiming Cui, Ting Liu, Ziqing Yang, Zhipeng Chen, Wentao Ma, Wanxiang
Che, Shijin Wang, Guoping Hu
- Abstract要約: 我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
- 参考スコア(独自算出の注目度): 64.07894249743767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Owing to the continuous efforts by the Chinese NLP community, more and more
Chinese machine reading comprehension datasets become available. To add
diversity in this area, in this paper, we propose a new task called Sentence
Cloze-style Machine Reading Comprehension (SC-MRC). The proposed task aims to
fill the right candidate sentence into the passage that has several blanks. We
built a Chinese dataset called CMRC 2019 to evaluate the difficulty of the
SC-MRC task. Moreover, to add more difficulties, we also made fake candidates
that are similar to the correct ones, which requires the machine to judge their
correctness in the context. The proposed dataset contains over 100K blanks
(questions) within over 10K passages, which was originated from Chinese
narrative stories. To evaluate the dataset, we implement several baseline
systems based on the pre-trained models, and the results show that the
state-of-the-art model still underperforms human performance by a large margin.
We release the dataset and baseline system to further facilitate our community.
Resources available through https://github.com/ymcui/cmrc2019
- Abstract(参考訳): 中国のNLPコミュニティによる継続的な取り組みにより、より多くの中国の機械読解データセットが利用可能になった。
本稿では,この領域に多様性を加えるために,SC-MRC(Sentence Cloze-style Machine Reading Comprehension)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
さらに,さらに難易度を増すために,機械が文脈における正しさを判断するために必要な,正しい候補と類似した偽候補も作成した。
提案したデータセットは、中国の物語から派生した10K節以内の100K以上の空白(クエスト)を含んでいる。
このデータセットを評価するために,事前学習したモデルに基づいて,いくつかのベースラインシステムを実装した。
コミュニティをさらに促進するために、データセットとベースラインシステムをリリースします。
https://github.com/ymcui/cmrc2019で利用可能なリソース
関連論文リスト
- MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education [2.5199066832791535]
ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
論文 参考訳(メタデータ) (2023-03-31T15:54:54Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Wukong: 100 Million Large-scale Chinese Cross-modal Pre-training Dataset
and A Foundation Framework [99.38817546900405]
本稿では,異なるマルチモーダル事前学習手法のベンチマークを行うため,中国の大規模クロスモーダルデータセットを提案する。
Wukongという大規模な中国のクロスモーダルデータセットをリリースし、Webから1億の中国語画像テキストペアを格納しています。
論文 参考訳(メタデータ) (2022-02-14T14:37:15Z) - Sentence Extraction-Based Machine Reading Comprehension for Vietnamese [0.2446672595462589]
UIT-ViWikiQAは,ベトナム語における文抽出に基づく機械読解に関する最初のデータセットである。
このデータセットは、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。
我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。
論文 参考訳(メタデータ) (2021-05-19T10:22:27Z) - Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with
Common Sense and World Knowledge [49.288196234823005]
カントは、広告、喜劇、ドッグウィストル政治を理解するために重要である。
カントの作成と理解のための大規模で多様な中国データセットを提案します。
論文 参考訳(メタデータ) (2021-04-06T17:55:43Z) - A Vietnamese Dataset for Evaluating Machine Reading Comprehension [2.7528170226206443]
ベトナム語として低リソース言語のための新しいデータセットであるUIT-ViQuADを提案する。
このデータセットは、ウィキペディアから174のベトナム語記事の5,109節に基づいて、23,000人以上の人が生成した質問応答ペアで構成されている。
UIT-ViQuADの最初の実験モデルとして、英語と中国語の最先端MRC手法の実験を行った。
論文 参考訳(メタデータ) (2020-09-30T15:06:56Z) - Enhancing lexical-based approach with external knowledge for Vietnamese
multiple-choice machine reading comprehension [2.5199066832791535]
我々はベトナム語の417のテキストに基づいて,2,783対の複数選択質問と回答からなるデータセットを構築した。
本稿では,意味的類似度尺度と外部知識源を用いて質問を分析し,与えられたテキストから回答を抽出する語彙ベースのMDC手法を提案する。
提案手法は,最良ベースラインモデルよりも5.51%高い精度で61.81%の精度を実現する。
論文 参考訳(メタデータ) (2020-01-16T08:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。