論文の概要: ReCO: A Large Scale Chinese Reading Comprehension Dataset on Opinion
- arxiv url: http://arxiv.org/abs/2006.12146v1
- Date: Mon, 22 Jun 2020 11:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:15:31.865370
- Title: ReCO: A Large Scale Chinese Reading Comprehension Dataset on Opinion
- Title(参考訳): ReCO:オピニオンに関する大規模な中国語読解データセット
- Authors: BingningWang, Ting Yao, Qi Zhang, Jingfang Xu, Xiaochuan Wang
- Abstract要約: 本稿では,オピニオン上の中国語読解データセットであるReCOについて述べる。
ReCOの質問は、商用検索エンジンに発行された意見に基づくクエリである。
この通路は、検索した文書から支持スニペットを抽出するクラウドワーカーによって提供される。
- 参考スコア(独自算出の注目度): 58.12255665973199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the ReCO, a human-curated ChineseReading Comprehension
dataset on Opinion. The questions in ReCO are opinion based queries issued to
the commercial search engine. The passages are provided by the crowdworkers who
extract the support snippet from the retrieved documents. Finally, an
abstractive yes/no/uncertain answer was given by the crowdworkers. The release
of ReCO consists of 300k questions that to our knowledge is the largest in
Chinese reading comprehension. A prominent characteristic of ReCO is that in
addition to the original context paragraph, we also provided the support
evidence that could be directly used to answer the question. Quality analysis
demonstrates the challenge of ReCO that requires various types of reasoning
skills, such as causal inference, logical reasoning, etc. Current QA models
that perform very well on many question answering problems, such as BERT, only
achieve 77% accuracy on this dataset, a large margin behind humans nearly 92%
performance, indicating ReCO presents a good challenge for machine reading
comprehension. The codes, datasets are freely available at
https://github.com/benywon/ReCO.
- Abstract(参考訳): 本稿では,オピニオンに関する中国語読解データセットであるReCOについて述べる。
ReCOの質問は、商用検索エンジンに発行された意見に基づくクエリである。
この章は、検索された文書からサポートスニペットを抽出する群衆労働者によって提供されます。
最後に、群衆によって抽象的なyes/no/uncertainの回答が与えられた。
ReCOのリリースは、私たちの知る限り、中国の読解能力で最大である300万の質問から成り立っている。
ReCOの特筆すべき特徴は、原文の文脈の段落に加えて、質問に直接答えられるような支援証拠も提供したことである。
品質分析は、因果推論や論理的推論など、さまざまなタイプの推論スキルを必要とするReCOの課題を示しています。
現在のQAモデルは、BERTのような多くの質問応答問題で非常によく機能しており、このデータセットで77%の精度しか達成していない。
コード、データセットはhttps://github.com/benywon/reco.comから無料で利用できる。
関連論文リスト
- Aspect-oriented Consumer Health Answer Summarization [2.298110639419913]
コミュニティ質問回答(Community Question-Answering、CQA)フォーラムは、人々が情報を求める方法、特に医療ニーズに関連するものに革命をもたらした。
単一のクエリに対する応答にはいくつかの回答があるため、特定の健康上の懸念に関連する重要な情報を把握することが難しくなる。
本研究は、この制限に対処するために、側面に基づく健康回答の要約に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-10T07:52:43Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer
Summarization [73.91543616777064]
Stack OverflowやYahoo!のようなコミュニティ質問回答(CQA)フォーラムには、幅広いコミュニティベースの質問に対する回答の豊富なリソースが含まれている。
回答の要約の1つのゴールは、回答の視点の範囲を反映した要約を作成することである。
本研究は,専門言語学者による解答要約のための4,631個のCQAスレッドからなる新しいデータセットを導入する。
論文 参考訳(メタデータ) (2021-11-11T21:48:02Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - Challenges in Information-Seeking QA: Unanswerable Questions and
Paragraph Retrieval [46.3246135936476]
情報検索クエリの応答がより難しい理由と,その原因を解析する。
制御実験の結果,2つのヘッドルーム – 段落選択と応答可能性予測 – が示唆された。
私たちは6つの言語で800の未解決例を手動で注釈付けします。
論文 参考訳(メタデータ) (2020-10-22T17:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。