論文の概要: GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation
- arxiv url: http://arxiv.org/abs/2512.24119v1
- Date: Tue, 30 Dec 2025 09:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.353436
- Title: GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation
- Title(参考訳): GeoBench: 階層的評価によるマルチモーダル幾何学的問題解決の再考
- Authors: Yuan Feng, Yue Yang, Xiaohan He, Jiatong Zhao, Jianlong Chen, Zijun Chen, Daocheng Fu, Qi Liu, Renqiu Xia, Bo Zhang, Junchi Yan,
- Abstract要約: 幾何学的問題解決における4つの推論レベルを特徴とする階層型ベンチマークであるGeoBenchを提案する。
属性抽出から論理的誤り訂正まで,様々な機能を体系的に評価する。
これらの結果はGeoBenchを総合的なベンチマークとして確立し、幾何学的問題解決システムを開発するための実用的なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 48.04396968707237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric problem solving constitutes a critical branch of mathematical reasoning, requiring precise analysis of shapes and spatial relationships. Current evaluations of geometric reasoning in vision-language models (VLMs) face limitations, including the risk of test data contamination from textbook-based benchmarks, overemphasis on final answers over reasoning processes, and insufficient diagnostic granularity. To address these issues, we present GeoBench, a hierarchical benchmark featuring four reasoning levels in geometric problem-solving: Visual Perception, Goal-Oriented Planning, Rigorous Theorem Application, and Self-Reflective Backtracking. Through six formally verified tasks generated via TrustGeoGen, we systematically assess capabilities ranging from attribute extraction to logical error correction. Experiments reveal that while reasoning models like OpenAI-o3 outperform general MLLMs, performance declines significantly with increasing task complexity. Key findings demonstrate that sub-goal decomposition and irrelevant premise filtering critically influence final problem-solving accuracy, whereas Chain-of-Thought prompting unexpectedly degrades performance in some tasks. These findings establish GeoBench as a comprehensive benchmark while offering actionable guidelines for developing geometric problem-solving systems.
- Abstract(参考訳): 幾何学的問題解決は数学的推論の重要な分野であり、形状や空間的関係を正確に解析する必要がある。
視覚言語モデル(VLM)における幾何学的推論の現在の評価は、教科書ベースのベンチマークによるテストデータ汚染のリスク、推論プロセスに対する最終回答の過大評価、不十分な診断粒度など、制限に直面している。
これらの問題に対処するため、GeoBenchは幾何学的問題解決における4つの推論レベル(視覚知覚、目標指向計画、厳密な理論アプリケーション、自己回帰バックトラック)を特徴とする階層的ベンチマークである。
TrustGeoGenによって生成される6つの正式なタスクを通じて、属性抽出から論理的誤り訂正までの機能を体系的に評価する。
実験によると、OpenAI-o3のような推論モデルは一般的なMLLMよりも優れているが、タスクの複雑さの増加に伴い性能は大幅に低下する。
鍵となる発見は、サブゴール分解と無関係な前提フィルタリングが最終問題解決の精度に重大な影響を及ぼすことを示し、一方、Chain-of-Thoughtは、いくつかのタスクで予期せぬ性能の低下を引き起こす。
これらの結果はGeoBenchを総合的なベンチマークとして確立し、幾何学的問題解決システムを開発するための実用的なガイドラインを提供する。
関連論文リスト
- GeoThought: A Dataset for Enhancing Mathematical Geometry Reasoning in Vision-Language Models [3.66076510862044]
6,243個のサンプルを持つGeo-Thought-6Kと10,834個のサンプルを含むGeo-Thought-Augmented-10Kの2つのサブセットからなる包括的幾何学的推論コーパスを開発した。
このデータセットを用いて,問題解決時に詳細な思考プロセスを生成する数学的推論マルチモーダルモデルGeoThought-MLLMを開発した。
我々のモデルは、幾何学的タスクにおける既存のベンチマークよりも優れており、私たちのChain-of-Thoughtデータセットによるトレーニングが、ドメイン内とドメイン外の両方で幾何学的推論能力を改善することを実証しています。
論文 参考訳(メタデータ) (2025-10-23T16:43:54Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - EvolMathEval: Towards Evolvable Benchmarks for Mathematical Reasoning via Evolutionary Testing [45.89558878854675]
EvolMathEvalは、進化テストに基づく自動数学的ベンチマーク生成と進化のフレームワークである。
連続的な自己イテレーションによって大量の高次問題を生成することができる。
また、進化を通じてGSM8Kのような公開データセットの複雑さを著しく向上させ、モデルの精度を平均48%削減する。
論文 参考訳(メタデータ) (2025-08-18T15:24:10Z) - OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。
本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文 参考訳(メタデータ) (2025-06-23T17:51:40Z) - GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。