論文の概要: CHECK-MAT: Checking Hand-Written Mathematical Answers for the Russian Unified State Exam
- arxiv url: http://arxiv.org/abs/2507.22958v1
- Date: Tue, 29 Jul 2025 23:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.41101
- Title: CHECK-MAT: Checking Hand-Written Mathematical Answers for the Russian Unified State Exam
- Title(参考訳): CHECK-MAT:ロシアの統一国家試験に手書きの数学的回答をチェックする
- Authors: Ruslan Khrulev,
- Abstract要約: 本稿では、視覚言語モデル(VLM)を評価するための新しいベンチマークであるEGE-Math Solutions Assessment Benchmarkを紹介する。
問題解決に重点を置く既存のベンチマークとは異なり、私たちのアプローチは、学生ソリューションの理解、ミスの特定、固定された基準によるグレードの割り当てに重点を置いています。
その結果、数学的推論と人間とルブリックのアライメントの現在の限界が明らかとなり、AIによるアセスメントにおける新たな研究の道が開かれた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel benchmark, EGE-Math Solutions Assessment Benchmark, for evaluating Vision-Language Models (VLMs) on their ability to assess hand-written mathematical solutions. Unlike existing benchmarks that focus on problem solving, our approach centres on understanding student solutions, identifying mistakes, and assigning grades according to fixed criteria. We compile 122 scanned solutions from the Russian Unified State Exam (EGE) together with official expert grades, and evaluate seven modern VLMs from Google, OpenAI, Arcee AI, and Alibaba Cloud in three inference modes. The results reveal current limitations in mathematical reasoning and human-rubric alignment, opening new research avenues in AI-assisted assessment. You can find code in https://github.com/Karifannaa/Auto-check-EGE-math
- Abstract(参考訳): 本稿では,手書きの数学的解を評価する上で,視覚言語モデル (VLM) を評価するための新しいベンチマーク EGE-Math Solutions Assessment Benchmark を提案する。
問題解決に重点を置く既存のベンチマークとは異なり、私たちのアプローチは、学生ソリューションの理解、ミスの特定、固定された基準によるグレードの割り当てに重点を置いています。
ロシア統一国家試験(EGE)からスキャンされた122のソリューションを、公式のエキスパートグレードとともにコンパイルし、Google、OpenAI、Arcee AI、Alibaba Cloudの7つのモダンなVLMを3つの推論モードで評価します。
その結果、数学的推論と人間とルブリックのアライメントの現在の限界が明らかとなり、AIによるアセスメントにおける新たな研究の道が開かれた。
https://github.com/Karifannaa/Auto-check-EGE-math
関連論文リスト
- CombiBench: Benchmarking LLM Capability for Combinatorial Mathematics [45.32204834230928]
100の問題をまとめた総合的なベンチマークであるCombiBenchを紹介します。
CombiBenchは2000年以降の問題解決に適している(画像を含むIMO 2004 P3を除く)。
また、フォーマル数学のための包括的で標準化された評価フレームワーク「ファイン・エバル」も提供する。
論文 参考訳(メタデータ) (2025-05-06T04:32:17Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - UGMathBench: A Diverse and Dynamic Benchmark for Undergraduate-Level Mathematical Reasoning with Large Language Models [11.964085209696051]
UGMathBenchは16の被験者5,062の課題と111のトピックで構成され、10の異なる回答タイプが特徴である。
それぞれの問題には3つのランダム化バージョンが含まれており、主要なオープンソース LLM が UGMathBench で飽和するにつれて、リリースに向けて追加バージョンが計画されている。
LLMを23個評価した結果, OpenAI-o1-mini による EAcc のロバスト性は 56.3% であり,それぞれ異なるモデルで大きな$Delta$値が観測された。
論文 参考訳(メタデータ) (2025-01-23T15:46:43Z) - UTMath: Math Evaluation with Unit Test via Reasoning-to-Coding Thoughts [7.856746367263317]
本稿では,大規模言語モデルの評価を目的とした頑健な評価フレームワークであるUTMath Benchmarkを紹介する。
これは9つの数学領域にまたがる1053個の最先端問題を含み、平均68個のテストケースがある。
最高の性能モデルであるo1-miniはわずか32.57%の問題を解き、o1-previewは27.16%、GPT-4oは26.93%であった。
論文 参考訳(メタデータ) (2024-11-11T18:59:02Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Can Language Models Solve Olympiad Programming? [40.54366634332231]
本稿ではUSACOベンチマークについて,USA Computing Olympiadの307の問題点について紹介する。
競争型プログラミングのための様々なLM推論手法を初めて構築・テストする。
GPT-4 は 8.7% パス@1 の精度しか達成していない。
論文 参考訳(メタデータ) (2024-04-16T23:27:38Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。