論文の概要: VEHME: A Vision-Language Model For Evaluating Handwritten Mathematics Expressions
- arxiv url: http://arxiv.org/abs/2510.22798v1
- Date: Sun, 26 Oct 2025 19:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.560396
- Title: VEHME: A Vision-Language Model For Evaluating Handwritten Mathematics Expressions
- Title(参考訳): VEHME:手書き数学表現の評価のための視覚言語モデル
- Authors: Thu Phuong Nguyen, Duc M. Nguyen, Hyotaek Jeon, Hyunwook Lee, Hyunmin Song, Sungahn Ko, Taehwan Kim,
- Abstract要約: 本稿では,手書き数学応答を高精度かつ解釈可能な推論トレースで評価するためのVEHME-a Vision-Language Modelを提案する。
VEHMEは、構造的推論データを用いた微調整と、モデル出力を多次元グレーディング目標と整合させる強化学習という、2段階の訓練パイプラインを統合している。
VEHMEは、オープンソースモデル間の最先端のパフォーマンスを達成し、プロプライエタリなシステムの精度にアプローチする。
- 参考スコア(独自算出の注目度): 11.210768330027674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically assessing handwritten mathematical solutions is an important problem in educational technology with practical applications, but it remains a significant challenge due to the diverse formats, unstructured layouts, and symbolic complexity of student work. To address this challenge, we introduce VEHME-a Vision-Language Model for Evaluating Handwritten Mathematics Expressions-designed to assess open-form handwritten math responses with high accuracy and interpretable reasoning traces. VEHME integrates a two-phase training pipeline: (i) supervised fine-tuning using structured reasoning data, and (ii) reinforcement learning that aligns model outputs with multi-dimensional grading objectives, including correctness, reasoning depth, and error localization. To enhance spatial understanding, we propose an Expression-Aware Visual Prompting Module, trained on our synthesized multi-line math expressions dataset to robustly guide attention in visually heterogeneous inputs. Evaluated on AIHub and FERMAT datasets, VEHME achieves state-of-the-art performance among open-source models and approaches the accuracy of proprietary systems, demonstrating its potential as a scalable and accessible tool for automated math assessment. Our training and experiment code is publicly available at our GitHub repository.
- Abstract(参考訳): 手書きの数学的解を自動的に評価することは、実践的な応用による教育技術において重要な問題であるが、多種多様な形式、非構造的レイアウト、学生作業の象徴的な複雑さのために、依然として重要な課題である。
この課題に対処するために,手書き数学式の評価のためのVEHME-a Vision-Language Modelを導入する。
VEHMEは2フェーズのトレーニングパイプラインを統合します。
一 構造化推論データを用いた微調整の監督、及び
二 モデル出力を正当性、推論深度、誤差定位を含む多次元グレーディング目標と整合させる強化学習。
空間的理解を高めるために,合成した多行数学式データセットに基づいて学習したExpression-Aware Visual Prompting Moduleを提案する。
AIHubとFERMATデータセットに基づいて評価されたVEHMEは、オープンソースのモデル間の最先端のパフォーマンスを実現し、プロプライエタリなシステムの精度にアプローチし、自動数学評価のためのスケーラブルでアクセスしやすいツールとしての可能性を示している。
トレーニングと試験のコードはGitHubリポジトリで公開されています。
関連論文リスト
- Medical artificial intelligence toolbox (MAIT): an explainable machine learning framework for binary classification, survival modelling, and regression analyses [0.0]
Medical Artificial Intelligence Toolbox (MAIT)は、バイナリ分類、回帰、サバイバルモデルの開発と評価のための、説明可能なオープンソースのPythonパイプラインである。
MAITは、レポートの透明性を促進しながら、重要な課題(例えば、高次元性、クラス不均衡、混合変数型、欠如)に対処する。
医療研究におけるMLモデルの実装と解釈を改善するために、MAITをどのように使用できるかを示すために、4つのオープンアクセスデータセットを使用して、GitHubで詳細なチュートリアルを提供している。
論文 参考訳(メタデータ) (2025-01-08T14:51:36Z) - iGAiVA: Integrated Generative AI and Visual Analytics in a Machine Learning Workflow for Text Classification [2.0094862015890245]
視覚分析(VA)を用いて,大規模言語モデルを用いた合成データの生成を誘導する手法を提案する。
本稿では,データ不足の種別について論じ,その識別を支援するVA技術について述べるとともに,対象データ合成の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-24T08:19:45Z) - PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation [2.1184929769291294]
本稿では,データ視覚化における大規模言語モデルの習熟度を評価するために設計された,新しい合成データセットを提案する。
我々のデータセットは、制御されたパラメータを使って生成され、潜在的な現実世界シナリオの包括的カバレッジが保証されます。
我々は、画像中の視覚データに関連する質問を多モーダルテキストプロンプトを用いて、いくつかの最先端モデルをベンチマークする。
論文 参考訳(メタデータ) (2024-09-04T11:19:17Z) - A Multimodal Automated Interpretability Agent [63.8551718480664]
MAIAは、ニューラルモデルを使用して、ニューラルモデル理解タスクを自動化するシステムである。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
論文 参考訳(メタデータ) (2024-04-22T17:55:11Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。