論文の概要: Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests
- arxiv url: http://arxiv.org/abs/2506.07418v1
- Date: Mon, 09 Jun 2025 04:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.116043
- Title: Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests
- Title(参考訳): マルチモーダルLLMにおける視覚数学の評価 : カンガルーテストに基づく多言語ベンチマーク
- Authors: Arnau Igualde Sáez, Lamyae Rhomrasi, Yusef Ahsini, Ricardo Vinuesa, Sergio Hoyas, Jose P. García Sabater, Marius J. Fullana i Alfonso, J. Alberto Conejero,
- Abstract要約: MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
- 参考スコア(独自算出の注目度): 2.0176279176431744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) promise advanced vision language capabilities, yet their effectiveness in visually presented mathematics remains underexplored. This paper analyzes the development and evaluation of MLLMs for mathematical problem solving, focusing on diagrams, multilingual text, and symbolic notation. We then assess several models, including GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision variants, and Gemini 2.0 Flash in a multilingual Kangaroo style benchmark spanning English, French, Spanish, and Catalan. Our experiments reveal four key findings. First, overall precision remains moderate across geometry, visual algebra, logic, patterns, and combinatorics: no single model excels in every topic. Second, while most models see improved accuracy with questions that do not have images, the gain is often limited; performance for some remains nearly unchanged without visual input, indicating underutilization of diagrammatic information. Third, substantial variation exists across languages and difficulty levels: models frequently handle easier items but struggle with advanced geometry and combinatorial reasoning. Notably, Gemini 2.0 Flash achieves the highest precision on image based tasks, followed by Qwen VL 2.5 72B and GPT 4o, though none approach human level performance. Fourth, a complementary analysis aimed at distinguishing whether models reason or simply recite reveals that Gemini and GPT 4o stand out for their structured reasoning and consistent accuracy. In contrast, Pixtral and Llama exhibit less consistent reasoning, often defaulting to heuristics or randomness when unable to align their outputs with the given answer options.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
我々の実験では4つの重要な発見が明らかになった。
第一に、全体的な精度は幾何学、視覚代数学、論理学、パターン、コンビネータ論に及ばない。
第二に、ほとんどのモデルでは画像を持たない質問で精度が向上しているが、ゲインは制限されることが多い。
モデルはしばしばより簡単なアイテムを扱うが、高度な幾何学的推論や組合せ的推論に苦しむ。
特に、Gemini 2.0 Flashは画像ベースのタスクで最高精度を達成し、続いてQwen VL 2.5 72BとGPT 4oが続くが、人間レベルのパフォーマンスには近づかない。
第4に、モデルが推論したのか単に引用したのかを区別することを目的とした補完的な分析によって、GeminiとGPT 4oは構造化された推論と一貫性のある精度で際立っていることが明らかになった。
対照的に、Pixtral と Llama は一貫性の低い推論を示し、しばしば与えられた答えオプションと出力を整合できないときにヒューリスティックスやランダムネスにデフォルトを付ける。
関連論文リスト
- VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Forgotten Polygons: Multimodal Large Language Models are Shape-Blind [36.051170815296985]
視覚言語タスクの性能は高いが、Multimodal Large Language Models (MLLM) は数学的な問題解決に苦戦している。
以上の結果から,正多角形同定において,トップモデルが50%未満の精度で達成されるなど,形状認識の根本的な欠点が明らかとなった。
図中の視覚的アノテーションを明示的に参照することにより、多段階の数学的推論を強化する。
論文 参考訳(メタデータ) (2025-02-21T22:04:09Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - REBUS: A Robust Evaluation Benchmark of Understanding Symbols [1.90463290938268]
GPT-4oは他の全てのモデルよりも大幅に優れ、続いてプロプライエタリなモデルも他の評価モデルよりも優れていた。
最高のモデルでさえ、最終的な精度はわずか42%で、ハードパズルでは7%に低下する。
したがって、我々のベンチマークは、マルチモーダルな大言語モデルの知識と推論における大きな欠点を特定するのに利用できる。
論文 参考訳(メタデータ) (2024-01-11T00:30:28Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。