論文の概要: GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
- arxiv url: http://arxiv.org/abs/2509.25160v1
- Date: Mon, 29 Sep 2025 17:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.145235
- Title: GSM8K-V: Can Vision Language Models Solve Grade School Math Word Problems in Visual Contexts
- Title(参考訳): GSM8K-V: 視覚的言語モデルによる視覚的文脈における小学校数学語問題解法
- Authors: Fan Yuan, Yuchen Yan, Yifan Jiang, Haoran Zhao, Tao Feng, Jinyan Chen, Yanwei Lou, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang,
- Abstract要約: GSM8K-Vは、純粋に視覚的なマルチイメージの数学的推論ベンチマークである。
GSM8K-Vは、広く使われているテキストベースのGSM8Kからサンプルを視覚的にマッピングすることで構築される。
我々は,GSM8K-V上で,幅広いオープンソースおよびクローズドソースモデルを評価する。
- 参考スコア(独自算出の注目度): 59.508903852810796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) achieve unified modeling of images and text, enabling them to accomplish complex real-world tasks through perception, planning, and reasoning. Among these tasks, reasoning is particularly representative, with mathematical reasoning serving as a prominent example. It highlights the high-level capability of VLMs to comprehend mathematical information in images and to perform sophisticated reasoning. Recently, numerous visual mathematical reasoning benchmarks have been proposed, but they are often restricted to geometry, lack coverage of math word problems, and rarely assess reasoning across multiple images. To address these gaps, we introduce GSM8K-V, a purely visual multi-image mathematical reasoning benchmark. GSM8K-V is built by systematically mapping each sample from the widely used text-based GSM8K into visual form. Through a carefully designed automated image-generation pipeline combined with meticulous human annotation, we curate 1,319 high-quality samples. We evaluate a wide range of open-source and closed-source models on GSM8K-V. Results show that although existing VLMs have nearly saturated performance on text-based GSM8K, there remains substantial room for improvement on GSM8K-V. For example, the best-performing model, Gemini-2.5-Pro, achieves 95.22% accuracy on GSM8K but only 46.93% on GSM8K-V. We conduct a comprehensive analysis of GSM8K-V, examining the limitations of current models as well as potential directions for improvement. GSM8K-V offers a new perspective on visual mathematical reasoning and establishes a benchmark to guide the development of more robust and generalizable VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)はイメージとテキストの統一的なモデリングを実現し、知覚、計画、推論を通じて複雑な現実世界のタスクを実現できる。
これらのタスクの中で、推論は特に代表的であり、数学的推論は顕著な例である。
画像中の数学的情報を理解し、洗練された推論を行うVLMの高レベルな能力を強調している。
近年、多くの視覚数学的推論ベンチマークが提案されているが、しばしば幾何学に制限され、数学用語の問題の範囲が不足しており、複数の画像にまたがる推論を評価することは稀である。
これらのギャップに対処するため、GSM8K-Vは純粋に視覚的なマルチイメージの数学的推論ベンチマークである。
GSM8K-Vは、広く使われているテキストベースのGSM8Kからサンプルを視覚的にマッピングすることで構築される。
慎重に設計された画像生成パイプラインと繊細な人間のアノテーションを組み合わせることで、1,319の高品質なサンプルをキュレートする。
我々は,GSM8K-V上で,幅広いオープンソースおよびクローズドソースモデルを評価する。
その結果,既存のVLMはテキストベースGSM8Kではほぼ飽和状態にあるものの,GSM8K-Vでは改善の余地が残っていることがわかった。
例えば、最高のパフォーマンスモデルであるGemini-2.5-Proは、GSM8Kでは95.22%の精度を達成しているが、GSM8K-Vでは46.93%しか達成していない。
我々はGSM8K-Vの包括的分析を行い、現在のモデルの限界と改善のための潜在的な方向について検討する。
GSM8K-Vは、視覚数学的推論の新しい視点を提供し、より堅牢で一般化可能なVLMの開発を導くためのベンチマークを確立する。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - A Careful Examination of Large Language Model Performance on Grade School Arithmetic [4.573055530800853]
大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
このパフォーマンスの一部は、実際にデータセットの汚染を反映している、という懸念が高まっている。
論文 参考訳(メタデータ) (2024-05-01T05:52:05Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。