論文の概要: Tangram: A Challenging Benchmark for Geometric Element Recognizing
- arxiv url: http://arxiv.org/abs/2408.13854v1
- Date: Sun, 25 Aug 2024 14:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:42:00.445648
- Title: Tangram: A Challenging Benchmark for Geometric Element Recognizing
- Title(参考訳): Tangram: 幾何学的要素認識のためのベンチマーク
- Authors: Jiamin Tang, Chao Zhang, Xudong Zhu, Mengchi Liu,
- Abstract要約: Tangramは幾何学的認識要素上でのLMMの性能を評価するために設計された新しいベンチマークである。
タングラムには、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図が含まれている。
単純なけれども興味深い”カウントタスクを実行するために、モデルが必要です。
すべてのテストされたモデルで上位のパフォーマーの全体的な精度は56.8%に過ぎず、人間のパフォーマンスと比較して大きな差がある。
- 参考スコア(独自算出の注目度): 4.97503948320156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant advancements in Large Multimodal Models (LMMs) have enabled them to tackle complex problems involving visual-mathematical reasoning. However, their ability to identify geometric elements remains understudied. To bridge this gap, we introduce Tangram, a novel benchmark designed to evaluate the performance of LMMs on geometric element recognition. Tangram includes 1,080 diverse geometric diagrams sourced from primary and secondary school exams, competitions, and textbooks, covering from simple basic geometric shapes to complex combinations. Each diagram is associated with four questions, resulting in a total of 4,320 visual-question-answer pairs. Unlike existing benchmarks that seek higher-level cognition and reasoning, Tangram focuses on the understanding of geometric elements, requiring models to perform a "simple but interesting" counting task. Systematic evaluation of 10 prominent LMMs, such as GPT-4o and Claude 3.5 Sonnet, shows that even in the seemingly simple task, these models still face significant challenges. Notably, the overall accuracy of the top performer across all tested models is only 56.8%, marking a significant gap when compared to human performance. These findings highlight the limitations of current multimodal artificial intelligence systems in handling basic perception tasks, and will inspire the development of the next generation of expert-level multimodal foundational models. The Tangram and evaluation code will be available soon.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚・数学的推論を含む複雑な問題に対処できるようになった。
しかし、幾何学的要素を識別する能力はいまだ検討されていない。
このギャップを埋めるために、幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークであるTangramを紹介する。
タングラムには、初等・中等教育試験、コンペ、教科書から得られる1080の多様な幾何学図があり、単純な幾何学的形状から複雑な組み合わせまでをカバーしている。
それぞれのダイアグラムは4つの質問に関連付けられ、合計4,320のビジュアル・クエクション・アンサー・ペアとなる。
高度な認知と推論を求める既存のベンチマークとは異なり、Tangramは幾何学的要素の理解に焦点を当て、「単純だが興味深い」数え上げタスクを実行するためにモデルを必要とする。
GPT-4o や Claude 3.5 Sonnet のような 10 個の著名な LMM の体系的評価は、一見単純なタスクであっても、これらのモデルが依然として重大な課題に直面していることを示している。
特に、テストされた全てのモデルで上位のパフォーマーの全体的な精度は56.8%に過ぎず、人間のパフォーマンスと比べて大きな差がある。
これらの知見は、基本的な知覚タスクを扱う上で、現在のマルチモーダル人工知能システムの限界を強調し、次世代のエキスパートレベルのマルチモーダル基盤モデルの開発を促すものである。
Tangramと評価コードも近く公開される予定だ。
関連論文リスト
- TurtleBench: A Visual Programming Benchmark in Turtle Geometry [14.856377809214747]
TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。
評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。
TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
論文 参考訳(メタデータ) (2024-10-31T23:52:06Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。
本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。
BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文 参考訳(メタデータ) (2024-07-06T17:01:04Z) - GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。
これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文 参考訳(メタデータ) (2024-02-15T16:59:41Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - MathVista: Evaluating Mathematical Reasoning of Foundation Models in
Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。
最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。
GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文 参考訳(メタデータ) (2023-10-03T17:57:24Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。