論文の概要: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2408.13854v2
- Date: Tue, 17 Dec 2024 08:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:04.265430
- Title: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
- Title(参考訳): Tangram: 大規模マルチモーダルモデルにおける幾何学的要素認識の評価ベンチマーク
- Authors: Chao Zhang, Jiamin Tang, Jing Xiao,
- Abstract要約: Tangramは幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークである。
タングラムは、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図で構成されている。
トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
- 参考スコア(独自算出の注目度): 14.754735603094245
- License:
- Abstract: Significant advancements in Large Multimodal Models (LMMs) have enabled them to tackle complex problems involving visual-mathematical reasoning. However, their ability to identify geometric elements remains underexplored. To address this gap, we introduce Tangram, a novel benchmark designed to evaluate the performance of LMMs on geometric element recognition. Tangram comprises 1,080 diverse geometric diagrams sourced from primary and secondary school exams, competitions, and textbooks, ranging from simple geometric shapes to complex combinations. Each diagram is paired with four questions, resulting in 4,320 visual-question-answer pairs. Unlike existing benchmarks that emphasize higher-level cognition and reasoning, Tangram focuses on understanding geometric elements, requiring models to perform a ``simple yet challenging" counting task. Systematic evaluation of 13 prominent LMMs, such as GPT-4o and Claude 3.5 Sonnet, reveals that these models face significant challenges even in seemingly straightforward tasks. The top-performing model achieves an accuracy of only 53.0%, highlighting a substantial gap compared to human performance. These findings underscore the limitations of current multimodal AI systems in handling basic perception tasks and serve to inspire the development of the next generation of expert-level multimodal foundational models. The data and code will be released soon.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚・数学的推論を含む複雑な問題に対処できるようになった。
しかし、幾何学的要素を識別する能力はいまだ解明されていない。
このギャップに対処するために、幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークであるTangramを紹介する。
タングラムは、単純な幾何学的な形から複雑な組み合わせまで、初等・中等教育試験、競技、教科書から得られた1,080の多様な幾何学図で構成されている。
それぞれのダイアグラムは4つの質問とペアリングされ、4,320の視覚的な問合せが答えられる。
高度な認知と推論を強調する既存のベンチマークとは異なり、Tangramは幾何学的要素を理解することに重点を置いており、モデルに『単純で難しい』数え上げタスクを実行する必要がある。
GPT-4oやClaude 3.5 Sonnetのような13の著名なLMMの体系的評価は、一見単純なタスクでもこれらのモデルが重大な課題に直面していることを示している。
トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
これらの知見は、基本的な知覚タスクの処理における現在のマルチモーダルAIシステムの限界を強調し、次世代のエキスパートレベルのマルチモーダル基盤モデルの開発を促進するのに役立つ。
データとコードはまもなくリリースされる。
関連論文リスト
- Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset [33.65525875690291]
実数競合から得られる視覚的コンテキストを持つ3,040個の高品質な数学問題の集合であるMATH-Visionデータセットを提示する。
広汎な実験により,MATH-Vにおける現在のLMMと人的性能の顕著な差が明らかになった。
我々の詳細な分類は、LMMの完全なエラー分析を可能にし、将来の研究開発のガイドとなる貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-22T18:56:38Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - Generalized Iris Presentation Attack Detection Algorithm under
Cross-Database Settings [63.90855798947425]
プレゼンテーションアタックは、バイオメトリックなモダリティの大部分に大きな課題をもたらす。
本稿では,汎用的な深層学習に基づくプレゼンテーション攻撃検出ネットワークであるMVANetを提案する。
これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。
論文 参考訳(メタデータ) (2020-10-25T22:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。