Fugu-MT 論文翻訳(概要): Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models

論文の概要: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models

arxiv url: http://arxiv.org/abs/2408.13854v2
Date: Tue, 17 Dec 2024 08:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.193787
Title: Tangram: Benchmark for Evaluating Geometric Element Recognition in Large Multimodal Models
Title（参考訳）: Tangram: 大規模マルチモーダルモデルにおける幾何学的要素認識の評価ベンチマーク
Authors: Chao Zhang, Jiamin Tang, Jing Xiao,
Abstract要約: Tangramは幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークである。タングラムは、初等・中等教育試験、コンペティション、教科書から得られた1080の多様な幾何学図で構成されている。トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。
参考スコア（独自算出の注目度）: 14.754735603094245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Significant advancements in Large Multimodal Models (LMMs) have enabled them to tackle complex problems involving visual-mathematical reasoning. However, their ability to identify geometric elements remains underexplored. To address this gap, we introduce Tangram, a novel benchmark designed to evaluate the performance of LMMs on geometric element recognition. Tangram comprises 1,080 diverse geometric diagrams sourced from primary and secondary school exams, competitions, and textbooks, ranging from simple geometric shapes to complex combinations. Each diagram is paired with four questions, resulting in 4,320 visual-question-answer pairs. Unlike existing benchmarks that emphasize higher-level cognition and reasoning, Tangram focuses on understanding geometric elements, requiring models to perform a ``simple yet challenging" counting task. Systematic evaluation of 13 prominent LMMs, such as GPT-4o and Claude 3.5 Sonnet, reveals that these models face significant challenges even in seemingly straightforward tasks. The top-performing model achieves an accuracy of only 53.0%, highlighting a substantial gap compared to human performance. These findings underscore the limitations of current multimodal AI systems in handling basic perception tasks and serve to inspire the development of the next generation of expert-level multimodal foundational models. The data and code will be released soon.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚・数学的推論を含む複雑な問題に対処できるようになった。しかし、幾何学的要素を識別する能力はいまだ解明されていない。このギャップに対処するために、幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークであるTangramを紹介する。タングラムは、単純な幾何学的な形から複雑な組み合わせまで、初等・中等教育試験、競技、教科書から得られた1,080の多様な幾何学図で構成されている。それぞれのダイアグラムは4つの質問とペアリングされ、4,320の視覚的な問合せが答えられる。高度な認知と推論を強調する既存のベンチマークとは異なり、Tangramは幾何学的要素を理解することに重点を置いており、モデルに『単純で難しい』数え上げタスクを実行する必要がある。 GPT-4oやClaude 3.5 Sonnetのような13の著名なLMMの体系的評価は、一見単純なタスクでもこれらのモデルが重大な課題に直面していることを示している。トップパフォーマンスモデルは53.0%の精度しか達成せず、人間のパフォーマンスに比べてかなりの差がある。これらの知見は、基本的な知覚タスクの処理における現在のマルチモーダルAIシステムの限界を強調し、次世代のエキスパートレベルのマルチモーダル基盤モデルの開発を促進するのに役立つ。データとコードはまもなくリリースされる。

関連論文リスト

GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra [33.53387523266523]
本稿では,視覚モデルと視覚言語基礎モデルの幾何学的推論能力を評価するためのベンチマークであるGIQを紹介する。 GIQは224種類の多面体からなる合成および実世界の画像からなる。
論文参考訳（メタデータ） (2025-06-09T20:11:21Z)
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。 STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文参考訳（メタデータ） (2025-06-05T05:09:46Z)
OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。 OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文参考訳（メタデータ） (2025-05-24T16:29:34Z)
GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。 17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文参考訳（メタデータ） (2025-05-23T09:17:07Z)
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。 6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文参考訳（メタデータ） (2025-04-08T08:06:53Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。 OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文参考訳（メタデータ） (2025-03-27T11:20:17Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles [29.214813685163218]
OpenAIのo-[n]シリーズ(o1、o3、o4-mini)のリリースは、大規模言語モデルにおける重要なパラダイムシフトである。 GPT-[n] および o-[n] 級数モデルの進化を、挑戦的なマルチモーダルパズル上で追跡する。以上の結果から, o-[n] 級数,特に o3 や o4-mini のような後続の反復は GPT-[n] 級数を著しく上回り,マルチモーダル推論において高いスケーラビリティを示すことが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T05:47:04Z)
TurtleBench: A Visual Programming Benchmark in Turtle Geometry [14.856377809214747]
TurtleBenchは、幾何学的パターンを解釈するLMMの能力を評価するために設計されたベンチマークである。評価の結果,LMMがこれらの課題に大きく取り組むことが明らかとなった。 TurtleBench氏は、直感的および視覚的幾何学的理解において、人間とAIのパフォーマンスのギャップを強調している。
論文参考訳（メタデータ） (2024-10-31T23:52:06Z)
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。既存のOlympiad関連のベンチマークとは異なり、我々のデータセットは数学にのみ焦点をあてている。実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,高度に難解なオリンピアドレベルの問題に悩まされていることが明らかとなった。
論文参考訳（メタデータ） (2024-10-10T14:39:33Z)
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。 PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-06T20:35:41Z)
Solving for X and Beyond: Can Large Language Models Solve Complex Math Problems with More-Than-Two Unknowns? [57.80779199039929]
大規模言語モデル (LLM) は数学問題の解法において顕著な性能を示した。本稿では,複数の未知の問題を組み込むことで,これらの制約に対処する新しいベンチマークであるBeyondXを紹介する。 BeyondXに関する実証的な研究によると、数学のタスクに特化して調整された既存のLLMの性能は、未知の数が増えるにつれて著しく低下する。
論文参考訳（メタデータ） (2024-07-06T17:01:04Z)
GeoEval: Benchmark for Evaluating LLMs and Multi-Modal Models on Geometry Problem-Solving [40.46491587796371]
我々はGeoEvalベンチマーク、2,000問題の主要サブセット、750問題サブセット、2000問題の追加サブセット、300問題のハードサブセットを含む包括的コレクションを紹介する。これらのサブセットにおける10個のLLMとMMの評価から、WizardMathモデルは、主サブセットでは55.67%の精度で、ハードサブセットでは6.00%の精度しか達成していないことが分かる。
論文参考訳（メタデータ） (2024-02-15T16:59:41Z)
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文参考訳（メタデータ） (2023-12-18T17:36:20Z)
MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts [170.01089233942594]
MathVistaは、様々な数学的タスクと視覚的タスクの課題を組み合わせるために設計されたベンチマークである。最高のパフォーマンスのGPT-4Vモデルは全体の49.9%の精度を達成し、第2位のパフォーマーであるBardを15.1%上回った。 GPT-4Vは、複雑な数字を理解し、厳格な推論を行うのに苦戦しているため、人間のパフォーマンスが10.4%下がったままである。
論文参考訳（メタデータ） (2023-10-03T17:57:24Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。