論文の概要: A Framework for Evaluation of Machine Reading Comprehension Gold
Standards
- arxiv url: http://arxiv.org/abs/2003.04642v1
- Date: Tue, 10 Mar 2020 11:30:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:02:40.478059
- Title: A Framework for Evaluation of Machine Reading Comprehension Gold
Standards
- Title(参考訳): 機械読解ゴールド標準の評価フレームワーク
- Authors: Viktor Schlegel, Marco Valentino, Andr\'e Freitas, Goran Nenadic, Riza
Batista-Navarro
- Abstract要約: 本稿では,現在の言語的特徴,必要な推論,背景知識,事実的正当性を調査するための統一的な枠組みを提案する。
語彙的曖昧さに寄与する特徴の欠如、期待される回答の様々な事実的正しさ、および語彙的手がかりの存在は、いずれも、評価データの読解の複雑さと品質を低下させる可能性がある。
- 参考スコア(独自算出の注目度): 7.6250852763032375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Reading Comprehension (MRC) is the task of answering a question over
a paragraph of text. While neural MRC systems gain popularity and achieve
noticeable performance, issues are being raised with the methodology used to
establish their performance, particularly concerning the data design of gold
standards that are used to evaluate them. There is but a limited understanding
of the challenges present in this data, which makes it hard to draw comparisons
and formulate reliable hypotheses. As a first step towards alleviating the
problem, this paper proposes a unifying framework to systematically investigate
the present linguistic features, required reasoning and background knowledge
and factual correctness on one hand, and the presence of lexical cues as a
lower bound for the requirement of understanding on the other hand. We propose
a qualitative annotation schema for the first and a set of approximative
metrics for the latter. In a first application of the framework, we analyse
modern MRC gold standards and present our findings: the absence of features
that contribute towards lexical ambiguity, the varying factual correctness of
the expected answers and the presence of lexical cues, all of which potentially
lower the reading comprehension complexity and quality of the evaluation data.
- Abstract(参考訳): 機械読解(英語: Machine Reading Comprehension、MRC)とは、1段落の文章で質問に答える作業である。
ニューラルMCCシステムは人気を博し、顕著な性能を達成する一方で、それらの性能を確立するために使用される方法論、特にそれらの評価に使用される金の標準のデータ設計に関して問題が提起されている。
このデータに存在する課題について、限られた理解しかできないため、比較を引いて信頼できる仮説を定式化することは困難である。
本稿では,この問題を解消するための第一歩として,現在の言語的特徴,必要な推論と背景知識,事実的正確性,そして語彙的手がかりの存在を,理解要件の下限として体系的に検討するための統一的枠組みを提案する。
本稿では,第1の定性的なアノテーションスキーマと後者の近似指標のセットを提案する。
本フレームワークの第一の応用として, 現代のMRCゴールド標準を分析し, 語彙的曖昧性に寄与する特徴の欠如, 期待する回答の様々な事実的正しさ, 語彙的手がかりの存在などについて述べる。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Review of coreference resolution in English and Persian [8.604145658574689]
参照解決(CR)は、同じ現実世界の実体を参照する表現を識別する。
本稿では、コア参照とアナフォラ分解能にまたがるCRの最近の進歩について考察する。
ペルシャのCRの独特な課題を認識し、このアンダーリソース言語に焦点をあてる。
論文 参考訳(メタデータ) (2022-11-08T18:14:09Z) - A Fine-grained Interpretability Evaluation Benchmark for Neural NLP [44.08113828762984]
このベンチマークでは、感情分析、テキスト類似性、読解の3つのNLPタスクをカバーしている。
十分にコンパクトで包括的に注釈付けされたトークンレベルの合理性を提供します。
3つのサリエンシ手法を用いた3つの典型的なモデルについて実験を行い、その強度と弱さを解釈可能性の観点から明らかにした。
論文 参考訳(メタデータ) (2022-05-23T07:37:04Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。