論文の概要: MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers
- arxiv url: http://arxiv.org/abs/2601.10104v1
- Date: Thu, 15 Jan 2026 06:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.012722
- Title: MathDoc: Benchmarking Structured Extraction and Active Refusal on Noisy Mathematics Exam Papers
- Title(参考訳): MathDoc: ノイズの多い数学論文における構造化抽出とアクティブな拒絶のベンチマーク
- Authors: Chenyue Zhou, Jiayi Tuo, Shitong Qin, Wei Dai, Mingxuan Wang, Ziwei Zhao, Duoyang Li, Shiyang Su, Yanxi Lu, Yanbiao Ma,
- Abstract要約: 我々は,高校数学試験論文から文書レベルの情報を抽出する最初のベンチマークであるMathDocを紹介する。
幹の精度, 視覚的類似性, 拒絶能力を考慮した多次元評価フレームワークを提案する。
Qwen3-VL や Gemini-2.5-Pro など SOTA MLLM の実験では、エンド・ツー・エンドのモデルでは強力な抽出性能が得られたが、常に入力を拒否することはできなかった。
- 参考スコア(独自算出の注目度): 22.091709845799784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated extraction of structured questions from paper-based mathematics exams is fundamental to intelligent education, yet remains challenging in real-world settings due to severe visual noise. Existing benchmarks mainly focus on clean documents or generic layout analysis, overlooking both the structural integrity of mathematical problems and the ability of models to actively reject incomplete inputs. We introduce MathDoc, the first benchmark for document-level information extraction from authentic high school mathematics exam papers. MathDoc contains \textbf{3,609} carefully curated questions with real-world artifacts and explicitly includes unrecognizable samples to evaluate active refusal behavior. We propose a multi-dimensional evaluation framework covering stem accuracy, visual similarity, and refusal capability. Experiments on SOTA MLLMs, including Qwen3-VL and Gemini-2.5-Pro, show that although end-to-end models achieve strong extraction performance, they consistently fail to refuse illegible inputs, instead producing confident but invalid outputs. These results highlight a critical gap in current MLLMs and establish MathDoc as a benchmark for assessing model reliability under degraded document conditions. Our project repository is available at \href{https://github.com/winnk123/papers/tree/master}{GitHub repository}
- Abstract(参考訳): 紙ベースの数学試験から構造化された質問の自動抽出は知的教育の基礎であるが、視覚ノイズが激しいために現実の環境では困難である。
既存のベンチマークは主にクリーンな文書や一般的なレイアウト分析に重点を置いており、数学的問題の構造的整合性と、不完全な入力を積極的に拒否するモデルの能力の両方を見越している。
我々は,真正な高校数学試験論文から文書レベルの情報を抽出する最初のベンチマークであるMathDocを紹介する。
MathDocには、現実世界のアーティファクトで慎重にキュレートされた質問が含まれており、アクティブな拒絶行動を評価するために認識できないサンプルを明示的に含んでいる。
本研究では,幹の精度,視覚的類似性,拒絶能力を考慮した多次元評価フレームワークを提案する。
Qwen3-VL や Gemini-2.5-Pro など SOTA MLLM の実験では、エンド・ツー・エンドのモデルでは強力な抽出性能が得られたが、不確定な入力を常に拒否せず、信頼性のある出力を出力することを示した。
これらの結果は、現在のMLLMにおける重要なギャップを浮き彫りにして、劣化した文書条件下でモデルの信頼性を評価するベンチマークとしてMathDocを確立する。
私たちのプロジェクトリポジトリは \href{https://github.com/winnk123/papers/tree/master}{GitHub repository} で利用可能です。
関連論文リスト
- Reliable Fine-Grained Evaluation of Natural Language Math Proofs [30.992321135182905]
本稿では,0-7スケールの微粒なスコアをモデル生成数学の証明に割り当てる評価器を開発するための体系的手法を提案する。
ProofBenchは,6つの主要な数学コンペティションから145の問題にまたがる,詳細な証明評価のエキスパートによる最初のデータセットである。
本稿では,強力な推論バックボーンLMと参照解とマーキングスキームからのリッチコンテキストを組み合わせた評価器ProofGraderと,シンプルなアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2025-10-14T02:59:07Z) - Solving Inequality Proofs with Large Language Models [42.667163027148916]
不等式証明は様々な科学・数学分野において不可欠である。
これにより、大きな言語モデル(LLM)の需要が高まるフロンティアとなる。
我々は、Olympiadレベルの不平等を専門家が計算したデータセットであるIneqMathをリリースした。
論文 参考訳(メタデータ) (2025-06-09T16:43:38Z) - RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics [30.778394290919582]
大規模言語モデル(LLM)における数学的推論を評価するための既存のベンチマークは、主に競合問題、公式な証明、人工的な問題に依存している。
論文や数理フォーラムから直接派生した新しいベンチマークであるRealMathを導入し,実数理タスクにおけるLLMの能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T23:32:46Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error [60.82371607870152]
本稿では,StepMathAgentと呼ばれる,エラーのツリーに基づく新しい数学的プロセス評価エージェントを提案する。
StepMathAgentには、論理ステップセグメンテーション、ステップスコア、スコアアグリゲーション、エラーツリー生成の4つの内部コア操作と、4つの外部拡張モジュールが含まれている。
StepMathBenchの実験では、提案したStepMathAgentは最先端の手法よりも優れており、様々なシナリオに適用可能であることが示されている。
論文 参考訳(メタデータ) (2025-03-13T07:02:53Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Computer Aided Design and Grading for an Electronic Functional
Programming Exam [0.0]
本稿では,既存の編集距離に基づくアルゴリズムと比較して公平性を向上させる証明ラインの正しいシーケンスを探索し,Proof Puzzlesをチェックするアルゴリズムを提案する。
正規表現を指定するための高レベルな言語とオープンソースツールにより、複雑な正規表現の作成はエラーを起こしやすい。
学習過程における自動化の度合いを分析し,学生に意見を求め,自身の経験を批判的にレビューすることで,その結果のe-examを評価する。
論文 参考訳(メタデータ) (2023-08-14T07:08:09Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。