論文の概要: MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics
- arxiv url: http://arxiv.org/abs/2010.03636v2
- Date: Thu, 15 Oct 2020 18:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:08:21.932141
- Title: MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics
- Title(参考訳): MOCHA: 生成的可読性メトリクスのトレーニングと評価のためのデータセット
- Authors: Anthony Chen, Gabriel Stanovsky, Sameer Singh and Matt Gardner
- Abstract要約: そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
- 参考スコア(独自算出の注目度): 55.85042753772513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Posing reading comprehension as a generation problem provides a great deal of
flexibility, allowing for open-ended questions with few restrictions on
possible answers. However, progress is impeded by existing generation metrics,
which rely on token overlap and are agnostic to the nuances of reading
comprehension. To address this, we introduce a benchmark for training and
evaluating generative reading comprehension metrics: MOdeling Correctness with
Human Annotations. MOCHA contains 40K human judgement scores on model outputs
from 6 diverse question answering datasets and an additional set of minimal
pairs for evaluation. Using MOCHA, we train a Learned Evaluation metric for
Reading Comprehension, LERC, to mimic human judgement scores. LERC outperforms
baseline metrics by 10 to 36 absolute Pearson points on held-out annotations.
When we evaluate robustness on minimal pairs, LERC achieves 80% accuracy,
outperforming baselines by 14 to 26 absolute percentage points while leaving
significant room for improvement. MOCHA presents a challenging problem for
developing accurate and robust generative reading comprehension metrics.
- Abstract(参考訳): 世代問題としての読解理解は、多くの柔軟性をもたらし、可能な答えに制限がほとんどないオープンエンドの質問を可能にします。
しかし、トークンの重複に依存し、読解のニュアンスに非依存な既存の世代メトリクスによって進行が妨げられている。
そこで本研究では,生成的読解指標であるModeling Correctness with Human Annotationsのトレーニングと評価を行うベンチマークを提案する。
MOCHAには、6つの多様な質問応答データセットから得られたモデル出力に対する40万の人的判断スコアと、評価のための最小ペアの追加セットが含まれている。
MOCHAを用いて、人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
LERCはベースラインのメトリクスを10から36の絶対的なピアソンポイントで上回る。
最小対のロバスト性を評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージで上回り、改善の余地は大きい。
MOCHAは、正確で堅牢な生成的読解尺度を開発する上で難しい問題である。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Towards Better Evaluation of Instruction-Following: A Case-Study in
Summarization [9.686937153317809]
本研究では,多種多様なメトリクスのメタ評価を行い,大規模言語モデルの指示追従能力の精度を定量的に評価する。
riSumを用いて評価方法と人的判断の一致を分析した。
論文 参考訳(メタデータ) (2023-10-12T15:07:11Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - A Multiple Choices Reading Comprehension Corpus for Vietnamese Language
Education [2.5199066832791535]
ViMMRC 2.0 はベトナムのテキストブックにおける多重選択読解作業のための以前の ViMMRC の拡張である。
このデータセットには、散文と詩からなる699の読解通路と、5,273の質問がある。
我々のマルチステージモデルは、テストセットの正確性によって58.81%を達成し、これは上位のBERTologyモデルよりも5.34%良い。
論文 参考訳(メタデータ) (2023-03-31T15:54:54Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - STARC: Structured Annotations for Reading Comprehension [23.153841344989143]
複数の選択肢を問う読み理解を評価するための新しいアノテーションフレームワークSTARCを提案する。
このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。
論文 参考訳(メタデータ) (2020-04-30T14:08:50Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。