論文の概要: MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers
- arxiv url: http://arxiv.org/abs/2601.10104v1
- Date: Thu, 15 Jan 2026 06:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.012722
- Title: MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers
- Title(参考訳): MathDoc: ノイズの多い数学論文における構造化抽出とアクティブな拒絶のベンチマーク
- Authors: Chenyue Zhou, Jiayi Tuo, Shitong Qin, Wei Dai, Mingxuan Wang, Ziwei Zhao, Duoyang Li, Shiyang Su, Yanxi Lu, Yanbiao Ma,
- Abstract要約: 我々は,高校数学試験論文から文書レベルの情報を抽出する最初のベンチマークであるMathDocを紹介する。
幹の精度, 視覚的類似性, 拒絶能力を考慮した多次元評価フレームワークを提案する。
Qwen3-VL や Gemini-2.5-Pro など SOTA MLLM の実験では、エンド・ツー・エンドのモデルでは強力な抽出性能が得られたが、常に入力を拒否することはできなかった。
- 参考スコア(独自算出の注目度): 22.091709845799784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated extraction of structured questions from paper-based mathematics exams is fundamental to intelligent education, yet remains challenging in real-world settings due to severe visual noise. Existing benchmarks mainly focus on clean documents or generic layout analysis, overlooking both the structural integrity of mathematical problems and the ability of models to actively reject incomplete inputs. We introduce MathDoc, the first benchmark for document-level information extraction from authentic high school mathematics exam papers. MathDoc contains \textbf{3,609} carefully curated questions with real-world artifacts and explicitly includes unrecognizable samples to evaluate active refusal behavior. We propose a multi-dimensional evaluation framework covering stem accuracy, visual similarity, and refusal capability. Experiments on SOTA MLLMs, including Qwen3-VL and Gemini-2.5-Pro, show that although end-to-end models achieve strong extraction performance, they consistently fail to refuse illegible inputs, instead producing confident but invalid outputs. These results highlight a critical gap in current MLLMs and establish MathDoc as a benchmark for assessing model reliability under degraded document conditions. Our project repository is available at \href{https://github.com/winnk123/papers/tree/master}{GitHub repository}
- Abstract(参考訳): 紙ベースの数学試験から構造化された質問の自動抽出は知的教育の基礎であるが、視覚ノイズが激しいために現実の環境では困難である。
既存のベンチマークは主にクリーンな文書や一般的なレイアウト分析に重点を置いており、数学的問題の構造的整合性と、不完全な入力を積極的に拒否するモデルの能力の両方を見越している。
我々は,真正な高校数学試験論文から文書レベルの情報を抽出する最初のベンチマークであるMathDocを紹介する。
MathDocには、現実世界のアーティファクトで慎重にキュレートされた質問が含まれており、アクティブな拒絶行動を評価するために認識できないサンプルを明示的に含んでいる。
本研究では,幹の精度,視覚的類似性,拒絶能力を考慮した多次元評価フレームワークを提案する。
Qwen3-VL や Gemini-2.5-Pro など SOTA MLLM の実験では、エンド・ツー・エンドのモデルでは強力な抽出性能が得られたが、不確定な入力を常に拒否せず、信頼性のある出力を出力することを示した。
これらの結果は、現在のMLLMにおける重要なギャップを浮き彫りにして、劣化した文書条件下でモデルの信頼性を評価するベンチマークとしてMathDocを確立する。
私たちのプロジェクトリポジトリは \href{https://github.com/winnk123/papers/tree/master}{GitHub repository} で利用可能です。
関連論文リスト
- RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。