論文の概要: MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark
- arxiv url: http://arxiv.org/abs/2503.07144v1
- Date: Mon, 10 Mar 2025 10:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:25.000344
- Title: MRCEval: A Comprehensive, Challenging and Accessible Machine Reading Comprehension Benchmark
- Title(参考訳): MRCEval: 総合的、複雑でアクセシブルなマシン読解ベンチマーク
- Authors: Shengkun Ma, Hao Peng, Lei Hou, Juanzi Li,
- Abstract要約: 我々は、理解を読むのに必要な重要な能力を分類する新しい分類法を導入する。
この分類に基づくMRCEvalは,大規模言語モデル(LLM)をサンプルジェネレータおよび選択判断器として活用するMRCベンチマークである。
MRCEvalは総合的で、挑戦的でアクセスしやすいベンチマークであり、13のRCスキルをカバーし、合計2.1Kの高品質なマルチチョイスの質問をカバーしている。
- 参考スコア(独自算出の注目度): 51.73839215956791
- License:
- Abstract: Machine Reading Comprehension (MRC) is an essential task in evaluating natural language understanding. Existing MRC datasets primarily assess specific aspects of reading comprehension (RC), lacking a comprehensive MRC benchmark. To fill this gap, we first introduce a novel taxonomy that categorizes the key capabilities required for RC. Based on this taxonomy, we construct MRCEval, an MRC benchmark that leverages advanced Large Language Models (LLMs) as both sample generators and selection judges. MRCEval is a comprehensive, challenging and accessible benchmark designed to assess the RC capabilities of LLMs thoroughly, covering 13 distinct RC skills with a total of 2.1K high-quality multi-choice questions. We perform an extensive evaluation of 28 widely used open-source and proprietary models, highlighting that MRC continues to present significant challenges even in the era of LLMs.
- Abstract(参考訳): 機械読解理解(MRC)は自然言語理解を評価する上で不可欠な課題である。
既存のMRCデータセットは、総合的なMRCベンチマークを欠いた読解理解(RC)の特定の側面を主に評価する。
このギャップを埋めるために、まず、RCに必要な重要な能力を分類する新しい分類法を導入する。
この分類に基づくMRCEvalは,大規模言語モデル(LLM)をサンプルジェネレータと選択判断器の両方として活用するMSCベンチマークである。
MRCEvalは、LLMのRC能力を徹底的に評価するために設計された包括的で挑戦的でアクセスしやすいベンチマークであり、13のRCスキルを合計2.1Kの高品質なマルチチョイス質問でカバーしている。
我々は、広く使われているオープンソースおよびプロプライエタリな28のモデルを広範囲に評価し、LCMの時代においても、MSCが大きな課題を呈し続けていることを強調した。
関連論文リスト
- CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - Lite Unified Modeling for Discriminative Reading Comprehension [68.39862736200045]
本稿では,多様な差別的MRCタスクを同期的に扱うために,POS強化反復協調ネットワーク(POI-Net)を提案する。
私たちのライト統一設計は、エンコーダコンポーネントとデコーダコンポーネントの両方で、モデルに大きな改善をもたらします。
4つの識別的MCCベンチマークによる評価結果から,本モデルの有効性と適用性について一貫した評価結果を得た。
論文 参考訳(メタデータ) (2022-03-26T15:47:19Z) - ExpMRC: Explainability Evaluation for Machine Reading Comprehension [42.483940360860096]
我々は,機械読解システムの説明可能性を評価するためのExpMRCと呼ばれる新しいベンチマークを提案する。
我々は、最先端の事前訓練言語モデルを用いてベースラインシステムを構築し、人間の注釈のないトレーニングセットなしで証拠を抽出するための様々な教師なしアプローチを採用する。
論文 参考訳(メタデータ) (2021-05-10T06:00:20Z) - Reference Knowledgeable Network for Machine Reading Comprehension [43.352833140317486]
マルチチョイスマシン読み取り(MRC)は、MRCタスクの重要かつ挑戦的な形式です。
参照知識ネットワーク(RekNet)と呼ばれるスパン抽出に基づく参照型知識強化モデルを提案する。
詳細では、RekNetは詳細なクリティカル情報を洗練し、Reference Spanと定義し、Reference Spanの共起情報と回答オプションによって外部知識の4倍を引用する。
論文 参考訳(メタデータ) (2020-12-07T14:11:33Z) - A Survey on Machine Reading Comprehension: Tasks, Evaluation Metrics and
Benchmark Datasets [5.54205518616467]
機械読み取り(Machine Reading、MRC)は、自然言語処理(NLP)の研究分野である。
MRCモデルの多くは、さまざまなベンチマークデータセットで人のパフォーマンスをすでに上回っている。
これは、既存のデータセット、評価指標、モデルを改善して、現在のMCCモデルを"リアル"な理解へと移行する必要性を示しています。
論文 参考訳(メタデータ) (2020-06-21T19:18:54Z) - Machine Reading Comprehension: The Role of Contextualized Language
Models and Beyond [85.53037880415734]
機械読解 (MRC) は、機械に人間の言語を読み、理解するように教えることを目的としている。
深層ニューラルネットワークの爆発と文脈化された言語モデル(CLM)の進化により、MRCの研究は2つの大きなブレークスルーを経験した。
論文 参考訳(メタデータ) (2020-05-13T10:58:50Z) - Retrospective Reader for Machine Reading Comprehension [90.6069071495214]
機械読み取り理解(英: Machine reading comprehension、MRC)とは、機械が与えられた文節に基づいて質問に対する正しい答えを決定することを要求するAIチャレンジである。
不可解な質問が MRC タスクに関与している場合、検証モジュールと呼ばれる本質的な検証モジュールがエンコーダに加えて特に必要となる。
本稿では, MRC タスクに対して, 解答不能な質問に対して, より優れた検証器設計を提案する。
論文 参考訳(メタデータ) (2020-01-27T11:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。