論文の概要: EMBRACE: Evaluation and Modifications for Boosting RACE
- arxiv url: http://arxiv.org/abs/2305.08433v1
- Date: Mon, 15 May 2023 08:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 15:29:58.798015
- Title: EMBRACE: Evaluation and Modifications for Boosting RACE
- Title(参考訳): EMBRACE: ブースティング RACE の評価と修正
- Authors: Mariia Zyrianova, Dmytro Kalpakchi, Johan Boye
- Abstract要約: RACEは英語のテキストとそれに対応する多重選択質問(MCQ)のデータセットである
RACEは、人間の読みを理解するために、中国語の英語教師によって構築された。
本稿では,高校生を対象とした RACE テストセットの詳細な分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training and evaluating machine reading comprehension models, it is very
important to work with high-quality datasets that are also representative of
real-world reading comprehension tasks. This requirement includes, for
instance, having questions that are based on texts of different genres and
require generating inferences or reflecting on the reading material.
In this article we turn our attention to RACE, a dataset of English texts and
corresponding multiple-choice questions (MCQs). Each MCQ consists of a question
and four alternatives (of which one is the correct answer). RACE was
constructed by Chinese teachers of English for human reading comprehension and
is widely used as training material for machine reading comprehension models.
By construction, RACE should satisfy the aforementioned quality requirements
and the purpose of this article is to check whether they are indeed satisfied.
We provide a detailed analysis of the test set of RACE for high-school
students (1045 texts and 3498 corresponding MCQs) including (1) an evaluation
of the difficulty of each MCQ and (2) annotations for the relevant pieces of
the texts (called "bases") that are used to justify the plausibility of each
alternative. A considerable number of MCQs appear not to fulfill basic
requirements for this type of reading comprehension tasks, so we additionally
identify the high-quality subset of the evaluated RACE corpus. We also
demonstrate that the distribution of the positions of the bases for the
alternatives is biased towards certain parts of texts, which is not necessarily
desirable when evaluating MCQ answering and generation models.
- Abstract(参考訳): 機械読影理解モデルの訓練と評価には,実世界の読影理解タスクを代表する高品質なデータセットを扱うことが重要である。
この要件には、例えば、異なるジャンルのテキストに基づいて、推論を生成するか、読み物に反映する必要がある質問がある。
本稿では、英語テキストとそれに対応する複数選択質問(MCQ)のデータセットであるRASに注目します。
各MCQは1つの質問と4つの選択肢からなる(そのうちの1つは正しい答えである)。
RACEは、人間の読解のための中国語教師によって構築され、機械読解モデルの教材として広く使用されている。
構築上, RACEは上記の品質要件を満たすべきであり, 本記事の目的は, それらが本当に満足しているかどうかを確認することである。
高校生(1045テキストと3498テキストに対応するMCQ)を対象に,(1)各MCQの難易度の評価,(2)各選択肢の妥当性を正当化するために使用されるテキストの関連部分(ベース)のアノテーションなど,RACEのテストセットを詳細に分析する。
MCQのかなりの数は、この種の読解タスクの基本的な要件を満たしていないため、評価されたRASコーパスの高品質なサブセットも同定する。
また,mcq応答と生成モデルの評価において必ずしも望ましいものではないテキストの特定の部分に対して,代替語のベースの位置分布が偏っていることを実証した。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - ChatPRCS: A Personalized Support System for English Reading
Comprehension based on ChatGPT [3.847982502219679]
本稿では,ChatPRCSと呼ばれる読解支援システムを提案する。
ChatPRCSは、理解能力予測、質問生成、自動評価などの手法を採用している。
論文 参考訳(メタデータ) (2023-09-22T11:46:44Z) - Question Generation for Reading Comprehension Assessment by Modeling How
and What to Ask [3.470121495099]
本研究では,推論的質問が重要となる読解のための質問生成(QG)について検討する。
本稿では,従来のデータセットを利用した2段階モデル(HTA-WTA)を提案する。
HTA-WTAモデルでは,深い推論を問うことで,強いSCRSの検証を行う。
論文 参考訳(メタデータ) (2022-04-06T15:52:24Z) - Fantastic Questions and Where to Find Them: FairytaleQA -- An Authentic
Dataset for Narrative Comprehension [136.82507046638784]
幼稚園児の物語理解に焦点を当てたデータセットであるFairytaleQAを8年生に紹介する。
FairytaleQAは10,580の明示的で暗黙的な質問で構成されており、278の子供フレンドリーな物語から導かれる。
論文 参考訳(メタデータ) (2022-03-26T00:20:05Z) - Generating Adequate Distractors for Multiple-Choice Questions [7.966913971277812]
本手法は, 音声タグ付け, 名前付きタグ付け, セマンティックロールラベル付け, 正規表現, ドメイン知識ベース, 単語埋め込み, 単語編集距離, ワードネット, その他のアルゴリズムの組み合わせである。
実験と人的判断により,各MCQは少なくとも1つの適切な注意障害を有し,評価の84%は3つの適切な注意障害を有することを示した。
論文 参考訳(メタデータ) (2020-10-23T20:47:58Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - STARC: Structured Annotations for Reading Comprehension [23.153841344989143]
複数の選択肢を問う読み理解を評価するための新しいアノテーションフレームワークSTARCを提案する。
このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。
論文 参考訳(メタデータ) (2020-04-30T14:08:50Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。