論文の概要: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2408.13854v2
- Date: Tue, 17 Dec 2024 08:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:04.265430
- Title: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
- Title(参考訳): Tangram: 大規模マルチモーダルモデルにおける幾何学的要素認識の評価ベンチマーク
- Authors: Chao Zhang, Jiamin Tang, Jing Xiao,
- Abstract要約: Tangramは幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークである。
タングラムは、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図で構成されている。
トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
- 参考スコア(独自算出の注目度): 14.754735603094245
- License:
- Abstract: Significant advancements in Large Multimodal Models (LMMs) have enabled them to tackle complex problems involving visual-mathematical reasoning. However, their ability to identify geometric elements remains underexplored. To address this gap, we introduce Tangram, a novel benchmark designed to evaluate the performance of LMMs on geometric element recognition. Tangram comprises 1,080 diverse geometric diagrams sourced from primary and secondary school exams, competitions, and textbooks, ranging from simple geometric shapes to complex combinations. Each diagram is paired with four questions, resulting in 4,320 visual-question-answer pairs. Unlike existing benchmarks that emphasize higher-level cognition and reasoning, Tangram focuses on understanding geometric elements, requiring models to perform a ``simple yet challenging" counting task. Systematic evaluation of 13 prominent LMMs, such as GPT-4o and Claude 3.5 Sonnet, reveals that these models face significant challenges even in seemingly straightforward tasks. The top-performing model achieves an accuracy of only 53.0%, highlighting a substantial gap compared to human performance. These findings underscore the limitations of current multimodal AI systems in handling basic perception tasks and serve to inspire the development of the next generation of expert-level multimodal foundational models. The data and code will be released soon.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚・数学的推論を含む複雑な問題に対処できるようになった。
しかし、幾何学的要素を識別する能力はいまだ解明されていない。
このギャップに対処するために、幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークであるTangramを紹介する。
タングラムは、単純な幾何学的な形から複雑な組み合わせまで、初等・中等教育試験、競技、教科書から得られた1,080の多様な幾何学図で構成されている。
それぞれのダイアグラムは4つの質問とペアリングされ、4,320の視覚的な問合せが答えられる。
高度な認知と推論を強調する既存のベンチマークとは異なり、Tangramは幾何学的要素を理解することに重点を置いており、モデルに『単純で難しい』数え上げタスクを実行する必要がある。
GPT-4oやClaude 3.5 Sonnetのような13の著名なLMMの体系的評価は、一見単純なタスクでもこれらのモデルが重大な課題に直面していることを示している。
トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
これらの知見は、基本的な知覚タスクの処理における現在のマルチモーダルAIシステムの限界を強調し、次世代のエキスパートレベルのマルチモーダル基盤モデルの開発を促進するのに役立つ。
データとコードはまもなくリリースされる。
関連論文リスト
- TurtleBench: A Visual Programming Benchmark in Turtle Geometry [14.856377809214747]
TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
論文 参考訳(メタデータ) (2024-10-31T23:52:06Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。
本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。
BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文 参考訳(メタデータ) (2024-07-06T17:01:04Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。