論文の概要: GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs
- arxiv url: http://arxiv.org/abs/2505.17653v1
- Date: Fri, 23 May 2025 09:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.951734
- Title: GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs
- Title(参考訳): GeoGramBench: 現代のLLMにおける幾何学的プログラム推論のベンチマーク
- Authors: Shixian Luo, Zezhou Zhu, Yu Yuan, Yuncheng Yang, Lianlei Shan, Yong Wu,
- Abstract要約: 本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
- 参考スコア(独自算出の注目度): 7.605833826892782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric spatial reasoning forms the foundation of many applications in artificial intelligence, yet the ability of large language models (LLMs) to operate over geometric spatial information expressed in procedural code remains underexplored. In this paper, we address this gap by formalizing the Program-to-Geometry task, which challenges models to translate programmatic drawing code into accurate and abstract geometric reasoning. To evaluate this capability, we present GeoGramBench, a benchmark of 500 carefully refined problems organized by a tailored three-level taxonomy that considers geometric complexity rather than traditional mathematical reasoning complexity. Our comprehensive evaluation of 17 frontier LLMs reveals consistent and pronounced deficiencies: even the most advanced models achieve less than 50% accuracy at the highest abstraction level. These results highlight the unique challenges posed by program-driven spatial reasoning and establish GeoGramBench as a valuable resource for advancing research in symbolic-to-spatial geometric reasoning. Project page: https://github.com/LiAuto-DSR/GeoGramBench.
- Abstract(参考訳): 幾何学的空間推論は、人工知能における多くの応用の基礎となっているが、大規模言語モデル(LLM)が手続きコードで表現された幾何学的空間情報を操作できる能力は、まだ未解明のままである。
本稿では,プログラム・ツー・ジオメトリのタスクを形式化し,プログラムの描画コードを正確かつ抽象的な幾何学的推論に変換するモデルに挑戦する。
この能力を評価するためにGeoGramBenchを提案する。GeoGramBenchは、従来の数学的推論の複雑さではなく、幾何学的な複雑さを考慮に入れた3段階の分類法によって整理された500の慎重に改良された問題のベンチマークである。
最も高度なモデルでさえ、最も抽象度の高いレベルで50%未満の精度で達成できる。
これらの結果は、プログラム駆動型空間推論によって引き起こされる固有の課題を強調し、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立する。
プロジェクトページ:https://github.com/LiAuto-DSR/GeoGramBench
関連論文リスト
- Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - NoReGeo: Non-Reasoning Geometry Benchmark [5.288175082601994]
NoReGeoは、大規模言語モデル(LLM)の固有の幾何学的理解を評価するために設計された新しいベンチマークである。
我々のベンチマークは25のカテゴリにまたがる2500の自明な幾何学的問題で構成されており、それぞれがネイティブな幾何学的理解を通じて純粋に解けるように慎重に設計されている。
我々は、GPT-4のようなフロンティアモデルを含むNoReGeo上の最先端モデルの範囲を評価し、最も先進的なシステムでさえバイナリ分類タスクにおいて、全体的な最大65%の精度を達成することを観察した。
論文 参考訳(メタデータ) (2026-01-15T10:22:55Z) - GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation [48.04396968707237]
幾何学的問題解決における4つの推論レベルを特徴とする階層型ベンチマークであるGeoBenchを提案する。
属性抽出から論理的誤り訂正まで,様々な機能を体系的に評価する。
これらの結果はGeoBenchを総合的なベンチマークとして確立し、幾何学的問題解決システムを開発するための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-12-30T09:56:37Z) - Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions [129.877899436804]
本稿では、ニューラルネットワークに基づく推論に頼ることなく、CPU上で完全に動作する幾何定理証明の高効率な方法を提案する。
IMO(International Mathematical Olympiad)において,補助点を追加するための単純なランダム戦略により,銀・医療レベルの人的パフォーマンスが達成できることを示す。
さらに,HAGeo-409という,人為的な難易度を持つ409の幾何学的問題からなるベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-27T01:05:00Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning [20.399408869403437]
幾何学的問題解決(GPS)は視覚的理解と記号的推論の両方を必要とする課題である。
既存のベンチマークでは、大きな言語モデルにおいて、人間のような幾何学的推論機構の両次元を共同で評価することができない。
MLLMの幾何学的推論能力を評価するために設計された最初の総合的バイリンガルベンチマークであるGeoSenseを紹介する。
論文 参考訳(メタデータ) (2025-04-17T02:46:27Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。