Fugu-MT 論文翻訳(概要): When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

論文の概要: When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR

arxiv url: http://arxiv.org/abs/2604.22774v1
Date: Wed, 01 Apr 2026 05:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:14.170629
Title: When VLMs 'Fix' Students: Identifying and Penalizing Over-Correction in the Evaluation of Multi-line Handwritten Math OCR
Title（参考訳）: VLMの「6」学生:多行手書き数学OCRの評価における過度補正の特定と罰則
Authors: Jin Seong, Wencke Liermann, Minho Kim, Jong-hun Shin, Soojong Lim,
Abstract要約: 我々は、視覚言語モデル(VLM)の臨界故障モードを明らかにするマルチライン手書き数学 OCR の最初の体系的研究について述べる。学生の作品を忠実に書き起こす代わりに、これらのモデルはしばしば誤りを「修正」し、教育アセスメントが検出しようとする間違いを隠蔽する。本稿では,Large Language Model (LLM) をルーブリックに基づくグレーディングに活用し,過度な補正を明示的に行う意味評価指標PINKを提案する。
参考スコア（独自算出の注目度）: 1.625123212387532
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accurate transcription of handwritten mathematics is crucial for educational AI systems, yet current benchmarks fail to evaluate this capability properly. Most prior studies focus on single-line expressions and rely on lexical metrics such as BLEU, which fail to assess the semantic reasoning across multi-line student solutions. In this paper, we present the first systematic study of multi-line handwritten math Optical Character Recognition (OCR), revealing a critical failure mode of Vision-Language Models (VLMs): over-correction. Instead of faithfully transcribing a student's work, these models often "fix" errors, thereby hiding the very mistakes an educational assessment aims to detect. To address this, we propose PINK (Penalized INK-based score), a semantic evaluation metric that leverages a Large Language Model (LLM) for rubric-based grading and explicitly penalizes over-correction. Our comprehensive evaluation of 15 state-of-the-art VLMs on the FERMAT dataset reveals substantial ranking reversals compared to BLEU: models like GPT-4o are heavily penalized for aggressive over-correction, whereas Gemini 2.5 Flash emerges as the most faithful transcriber. Furthermore, human expert studies show that PINK aligns significantly better with human judgment (55.0% preference over BLEU's 39.5%), providing a more reliable evaluation framework for handwritten math OCR in educational settings.
Abstract（参考訳）: 手書き数学の正確な書き起こしは、教育AIシステムにとって重要であるが、現在のベンチマークでは、この機能を適切に評価することができない。これまでのほとんどの研究は単行表現に重点を置いており、BLEUのような語彙のメトリクスに依存しており、多行学習者ソリューションのセマンティック推論を評価できない。本稿では,マルチライン手書き数学の光学文字認識(OCR)に関する最初の体系的研究を行い,視覚言語モデル(VLM)の重要な故障モードを明らかにする。学生の作品を忠実に書き起こす代わりに、これらのモデルはしばしば誤りを「修正」し、教育アセスメントが検出しようとする間違いを隠蔽する。そこで本研究では,Large Language Model (LLM) をルーブリックのグレーディングに活用し,過度な補正を明示的に行う意味評価指標であるPINK(Penalized INK-based score)を提案する。 FERMATデータセット上の15の最先端のVLMの包括的な評価では、BLEUと比較して相当なランク逆転が見られる。さらに、人間の専門家による研究によると、PINKは人間の判断とかなりよく一致している(BLEUの39.5%よりも55.0%の好意)。

関連論文リスト

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文参考訳（メタデータ） (2026-03-26T02:57:20Z)
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions [11.523324370139143]
EDU-CIRCUIT-HWは,大学レベルのSTEMコースから1,300以上の学生の手書きソリューションからなるデータセットである。各種MLLMの上流認識精度と下流オートグレーディング性能を同時に評価した。 MLLMで認識された学生の手書きコンテンツの中で,潜伏障害の驚くべき規模が明らかになった。
論文参考訳（メタデータ） (2026-01-23T21:40:29Z)
FLAWS: A Benchmark for Error Identification and Localization in Scientific Papers [10.04850395402571]
エラーの特定とローカライゼーションは、ピアレビューにおける中核的なタスクである。大規模言語モデル(LLM)の最近の進歩は、そのような評価タスクをサポートする可能性への関心を喚起している。レビューシステムにおけるLSMの利用が増加しているにもかかわらず、エラーを特定できる能力はいまだに未調査のままである。
論文参考訳（メタデータ） (2025-11-26T19:19:44Z)
Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。 1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文参考訳（メタデータ） (2025-06-09T10:57:26Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。 textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T14:57:51Z)
Can Vision-Language Models Evaluate Handwritten Math? [17.350707580013054]
FERMATは、手書きコンテンツのエラーを検出し、ローカライズし、修正するVision-Language Modelsの能力を評価するために設計されたベンチマークである。我々は、エラー検出、ローカライゼーション、修正の3つのタスクにまたがる9つのVLMをベンチマークする。 Gemini-1.5-Proは誤り訂正率が最も高い。
論文参考訳（メタデータ） (2025-01-13T11:52:55Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。