論文の概要: Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data
- arxiv url: http://arxiv.org/abs/2102.01226v1
- Date: Mon, 1 Feb 2021 23:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:55:20.062902
- Title: Self-Teaching Machines to Read and Comprehend with Large-Scale
Multi-Subject Question Answering Data
- Title(参考訳): 大規模多目的質問回答データによる自己学習機械の読み書き
- Authors: Dian Yu, Kai Sun, Dong Yu, Claire Cardie
- Abstract要約: 主観的問合せデータが機械読解作業に有用かどうかは不明である。
大規模多目的多目的質問回答データセットであるExamQAを収集する。
我々は、Web検索エンジンが返す不完全でノイズの多いスニペットを、各質問応答インスタンスの関連するコンテキストとして使用し、弱いラベル付きMRCインスタンスに変換する。
- 参考スコア(独自算出の注目度): 58.36305373100518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In spite of much recent research in the area, it is still unclear whether
subject-area question-answering data is useful for machine reading
comprehension (MRC) tasks. In this paper, we investigate this question. We
collect a large-scale multi-subject multiple-choice question-answering dataset,
ExamQA, and use incomplete and noisy snippets returned by a web search engine
as the relevant context for each question-answering instance to convert it into
a weakly-labeled MRC instance. We then propose a self-teaching paradigm to
better use the generated weakly-labeled MRC instances to improve a target MRC
task. Experimental results show that we can obtain an improvement of 5.1% in
accuracy on a multiple-choice MRC dataset, C^3, demonstrating the effectiveness
of our framework and the usefulness of large-scale subject-area
question-answering data for machine reading comprehension.
- Abstract(参考訳): この領域の最近の研究にもかかわらず、対象領域の質問応答データが機械読解(MRC)タスクに有用かどうかはまだ不明である。
本稿では,この問題について考察する。
大規模多目的多目的質問答えデータセットであるExamQAを収集し,Web検索エンジンが返送する不完全でノイズの多いスニペットを各問合せインスタンスのコンテキストとして使用し,弱ラベルのMRCインスタンスに変換する。
次に,生成した弱ラベルMRCインスタンスを,ターゲットMRCタスクを改善するための自己学習パラダイムを提案する。
実験結果から,マルチチョイスMRCデータセットC^3では5.1%の精度向上が可能であり,本フレームワークの有効性と,機械学習理解のための大規模質問応答データの有効性が示された。
関連論文リスト
- UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NEUer at SemEval-2021 Task 4: Complete Summary Representation by Filling
Answers into Question for Matching Reading Comprehension [10.361024307659187]
そこで我々は,質問に選択肢を埋め込んで,よりきめ細かなコンテキストを生成する新しいMRCモデルを提案する。
与えられたデータセット上で一連の実験を行い、その結果、我々のアプローチは、他のデータセットよりもかなり優れています。
論文 参考訳(メタデータ) (2021-05-25T16:31:26Z) - Determining Question-Answer Plausibility in Crowdsourced Datasets Using
Multi-Task Learning [10.742152224470317]
本稿では,品質分析とデータクリーニングのための新しいタスクを提案する。
ソーシャルメディア利用者からのマシンやユーザ生成の質問とクラウドソースによる回答が与えられた場合、質問と回答が有効かどうかを判断する。
クリーンで使いやすい質問応答データセットを生成するためのモデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-11-10T04:11:44Z) - Answer Span Correction in Machine Reading Comprehension [16.82391374339153]
機械読解理解(MRC)は、抽出された回答を入力コンテキストと質問ペアに対して検証する。
以前の研究は、抽出された回答から質問の「答え可能性」を再評価することを検討した。
ここでは,既存のMSCシステムにおいて,解答可能な質問を提示した場合に,部分的に正解が生じる傾向について考察する。
論文 参考訳(メタデータ) (2020-11-06T15:31:07Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - Tell Me How to Ask Again: Question Data Augmentation with Controllable
Rewriting in Continuous Space [94.8320535537798]
機械読解(MRC)、質問生成、質問答え自然言語推論タスクのための制御可能な書き換えベースの質問データ拡張(CRQDA)。
質問データ拡張タスクを制約付き質問書き換え問題として扱い、コンテキスト関連、高品質、多様な質問データサンプルを生成する。
論文 参考訳(メタデータ) (2020-10-04T03:13:46Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。