論文の概要: SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2601.06944v1
- Date: Sun, 11 Jan 2026 15:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.084
- Title: SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
- Title(参考訳): SketchJudge:マルチモーダル大言語モデルを用いた手書き図の診断ベンチマーク
- Authors: Yuhang Su, Mei Wang, Yaoyao Zhong, Guozhang Li, Shixing Li, Yihan Feng, Hua Huang,
- Abstract要約: 我々は手書きSTEM図のグレーダとしてMLLMを評価するための新しいベンチマークであるSketchJudgeを紹介する。
SketchJudgeは、幾何学、物理学、チャート、フローチャートという4つの領域にまたがる1015人の手書きの学生の反応を包含している。
評価の結果、先進的なMLLMでさえ人間よりもかなり遅れており、象徴的でノイズの多い状況下での現在の視覚言語アライメントの脆弱さを明らかにする上で、ベンチマークの有効性が検証された。
- 参考スコア(独自算出の注目度): 27.624339537278257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have achieved remarkable progress in visual understanding, they often struggle when faced with the unstructured and ambiguous nature of human-generated sketches. This limitation is particularly pronounced in the underexplored task of visual grading, where models should not only solve a problem but also diagnose errors in hand-drawn diagrams. Such diagnostic capabilities depend on complex structural, semantic, and metacognitive reasoning. To bridge this gap, we introduce SketchJudge, a novel benchmark tailored for evaluating MLLMs as graders of hand-drawn STEM diagrams. SketchJudge encompasses 1,015 hand-drawn student responses across four domains: geometry, physics, charts, and flowcharts, featuring diverse stylistic variations and distinct error types. Evaluations on SketchJudge demonstrate that even advanced MLLMs lag significantly behind humans, validating the benchmark's effectiveness in exposing the fragility of current vision-language alignment in symbolic and noisy contexts. All data, code, and evaluation scripts are publicly available at https://github.com/yuhangsu82/SketchJudge.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的理解において顕著な進歩を遂げているが、人間の生成したスケッチの非構造的であいまいな性質に直面すると、しばしば苦労する。
この制限は、モデルが問題を解くだけでなく、手書き図の誤りを診断する、視覚的階調の未調査課題において特に顕著である。
このような診断能力は複雑な構造、意味、メタ認知的推論に依存する。
このギャップを埋めるために、手書きSTEM図のグレーダとしてMLLMを評価するための新しいベンチマークであるSketchJudgeを紹介する。
SketchJudgeは、幾何学、物理学、チャート、フローチャートという4つの領域にまたがる1015人の手書きの学生の反応を包含している。
SketchJudgeの評価では、高度なMLLMのラグが人間よりも大幅に遅れており、シンボル的およびノイズ的文脈における現在の視覚言語アライメントの脆弱さを明らかにする上で、ベンチマークの有効性が検証されている。
すべてのデータ、コード、評価スクリプトはhttps://github.com/yuhangsu82/SketchJudgeで公開されている。
関連論文リスト
- PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests [2.0176279176431744]
MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
論文 参考訳(メタデータ) (2025-06-09T04:35:02Z) - ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding [18.67532755744138]
チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
論文 参考訳(メタデータ) (2025-05-25T10:21:29Z) - CHAOS: Chart Analysis with Outlier Samples [31.64244745491319]
CHAOSはマルチモーダル大言語モデル(MLLM)をチャートの摂動に対して評価するためのベンチマークである。
ベンチマークには、トレーニング範囲とデータに基づいて、13の最先端MLLMを3つのグループに分割する。
論文 参考訳(メタデータ) (2025-05-22T19:26:49Z) - Unmasking Deceptive Visuals: Benchmarking Multimodal Large Language Models on Misleading Chart Question Answering [45.67334913593117]
誤解を招く可視化は、公衆の理解にリスクをもたらし、データ駆動通信に関わるAIシステムに対して安全上の懸念を提起する。
我々は、24の最先端MLLMをベンチマークし、ミスリーダータイプとチャートフォーマット間での性能を分析し、新しい地域対応推論パイプラインを提案する。
我々の研究は、堅牢で信頼性があり、責任ある視覚コミュニケーションの要求に沿うMLLMを開発するための基盤を築いた。
論文 参考訳(メタデータ) (2025-03-23T18:56:33Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。