Fugu-MT 論文翻訳(概要): Can Vision-Language Models Evaluate Handwritten Math?

論文の概要: Can Vision-Language Models Evaluate Handwritten Math?

arxiv url: http://arxiv.org/abs/2501.07244v2
Date: Wed, 12 Mar 2025 04:10:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-13 16:44:43.670547
Title: Can Vision-Language Models Evaluate Handwritten Math?
Title（参考訳）: 手書き数学の評価は可能か?
Authors: Oikantik Nath, Hanani Bathina, Mohammed Safi Ur Rahman Khan, Mitesh M. Khapra,
Abstract要約: FERMATは、手書きコンテンツのエラーを検出し、ローカライズし、修正するVision-Language Modelsの能力を評価するために設計されたベンチマークである。我々は、エラー検出、ローカライゼーション、修正の3つのタスクにまたがる9つのVLMをベンチマークする。 Gemini-1.5-Proは誤り訂正率が最も高い。
参考スコア（独自算出の注目度）: 17.350707580013054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Vision-Language Models (VLMs) have opened new possibilities in automatic grading of handwritten student responses, particularly in mathematics. However, a comprehensive study to test the ability of VLMs to evaluate and reason over handwritten content remains absent. To address this gap, we introduce FERMAT, a benchmark designed to assess the ability of VLMs to detect, localize and correct errors in handwritten mathematical content. FERMAT spans four key error dimensions - computational, conceptual, notational, and presentation - and comprises over 2,200 handwritten math solutions derived from 609 manually curated problems from grades 7-12 with intentionally introduced perturbations. Using FERMAT we benchmark nine VLMs across three tasks: error detection, localization, and correction. Our results reveal significant shortcomings in current VLMs in reasoning over handwritten text, with Gemini-1.5-Pro achieving the highest error correction rate (77%). We also observed that some models struggle with processing handwritten content, as their accuracy improves when handwritten inputs are replaced with printed text or images. These findings highlight the limitations of current VLMs and reveal new avenues for improvement. We release FERMAT and all the associated resources in the open-source to drive further research.
Abstract（参考訳）: 近年のビジョン・ランゲージ・モデル(VLM)の進歩は、特に数学において手書きの学生の反応を自動的に評価する新たな可能性を開いた。しかし、VLMが手書きコンテンツを評価し、推論する能力をテストするための総合的な研究はいまだに残っていない。このギャップに対処するために、手書きの数学的内容中の誤りを検出し、局所化し、修正するVLMの能力を評価するためのベンチマークであるFERMATを導入する。 FERMATは、計算、概念、表記、プレゼンテーションの4つの重要なエラー次元にまたがり、意図的に導入された摂動を伴うグレード7-12から609個の手書き問題から導かれる2,200以上の手書きの数学解からなる。 FERMATを使って、エラー検出、ローカライゼーション、修正の3つのタスクで9つのVLMをベンチマークします。 Gemini-1.5-Pro は誤り訂正率 (77%) が最も高い。また,手書き入力を印刷テキストや画像に置き換える際の精度向上のため,手書きコンテンツの処理に苦慮するモデルもある。これらの知見は、現在のVLMの限界を浮き彫りにし、改善のための新たな道のりを明らかにした。我々は、FERMATと関連するすべてのリソースをオープンソースでリリースし、さらなる研究を進めます。

関連論文リスト

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences [2.7405470973070547]
音声の数学的表現の変換は、厳密に構造化された記号表現への音声の書き起こしを伴う難しい作業である。 66,000人以上の人手による数学的方程式と文のオーディオサンプルからなる、最初の完全にオープンソースな大規模データセットを提示する。
論文参考訳（メタデータ） (2025-08-05T15:11:37Z)
Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文参考訳（メタデータ） (2024-11-07T22:51:47Z)
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models [19.787224412654872]
In-deepth Assessment of Vision-Language Models (VLMs) のための動的視覚数学ベンチマークであるDynaMathを紹介する。 DynaMathには501の高品質でマルチトピックなシード質問が含まれており、それぞれがPythonプログラムとして表現されている。その結果,10変種すべてにおいて正解された種子質問の割合として定義される最悪のモデル精度は,平均値よりも有意に低いことがわかった。
論文参考訳（メタデータ） (2024-10-29T17:29:19Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは、事前定義された微妙なエラーをピボットトークンに注入する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Vision-Language Model Based Handwriting Verification [23.983430206133793]
本稿では,OpenAI の GPT-4o や Google の PaliGemma などの視覚言語モデル (VLM) を用いてこれらの課題に対処する。私たちの目標は、モデル決定に対して明確で人間に理解可能な説明を提供することです。
論文参考訳（メタデータ） (2024-07-31T17:57:32Z)
MUSE: Machine Unlearning Six-Way Evaluation for Language Models [109.76505405962783]
言語モデル(LM)は、プライベートおよび著作権のあるコンテンツを含む大量のテキストデータに基づいて訓練される。総合的な機械学習評価ベンチマークであるMUSEを提案する。人気のある8つのアンラーニングアルゴリズムがハリー・ポッターの本やニュース記事をいかに効果的に解き放つかをベンチマークする。
論文参考訳（メタデータ） (2024-07-08T23:47:29Z)
DiVERT: Distractor Generation with Variational Errors Represented as Text for Math Multiple-choice Questions [42.148511874019256]
算数多重選択問題(MCQ)において,障害の背後にある誤りの解釈可能な表現を学習する新しい変分法であるDiVERTを導入する。提案手法は,7Bパラメータを持つベース・オープンソース LLM を用いているにもかかわらず,GPT-4o を用いた最先端の手法を下流のイントラクタ生成において上回っていることを示す。数学教育者による人間評価も行っており、DiVERTが人間による評価に匹敵する品質のエラーラベルを導いていることを発見した。
論文参考訳（メタデータ） (2024-06-27T17:37:31Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文参考訳（メタデータ） (2024-03-21T17:59:50Z)
Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文参考訳（メタデータ） (2023-12-15T19:16:21Z)
CMATH: Can Your Language Model Pass Chinese Elementary School Math Test? [15.53530547827583]
中国小学校数学語問題データセットについて, 詳細な注釈付き1.7kの小学校レベルの数学語問題を含む。このデータセットは、人気のある大規模言語モデル(LLM)の能力を評価するためのベンチマークツールを提供することを目的としている。商用とオープンソースの両方の選択肢を含む,多種多様なLCMを評価し,小学校6学年でGPT-4のみが成功(精度$geq$60%)していることを確認した。
論文参考訳（メタデータ） (2023-06-29T02:19:50Z)
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。 7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文参考訳（メタデータ） (2023-06-18T01:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。