論文の概要: Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language
- arxiv url: http://arxiv.org/abs/2604.11600v2
- Date: Thu, 16 Apr 2026 11:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.168874
- Title: Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language
- Title(参考訳): ジオパーシング:統一形式言語を用いた平面と固体幾何学のダイアグラム解析
- Authors: Peijie Wang, Ming-Liang Zhang, Jun Cao, Chao Deng, Dekang Ran, Hongda Sun, Pi Bu, Xuan Zhang, Yingyao Wang, Jun Song, Bo Zheng, Fei Yin, Cheng-Lin Liu,
- Abstract要約: 我々は平面と固体の幾何学を統合した統一形式言語を設計し、幾何学構造と意味関係を包括的に網羅する。
GDP-29Kは,実世界の様々な情報源から収集した20k平面と9k固体形状のサンプルからなる大規模データセットである。
- 参考スコア(独自算出の注目度): 60.70116693224378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable progress but continue to struggle with geometric reasoning, primarily due to the perception bottleneck regarding fine-grained visual elements. While formal languages have aided plane geometry understanding, solid geometry which requires spatial understanding remains largely unexplored. In this paper, we address this challenge by designing a unified formal language that integrates plane and solid geometry, comprehensively covering geometric structures and semantic relations. We construct GDP-29K, a large-scale dataset comprising 20k plane and 9k solid geometry samples collected from diverse real-world sources, each paired with its ground-truth formal description. To ensure syntactic correctness and geometric consistency, we propose a training paradigm that combines Supervised Fine-Tuning with Reinforcement Learning via Verifiable Rewards. Experiments show that our approach achieves state-of-the-art parsing performance. Furthermore, we demonstrate that our parsed formal descriptions serve as a critical cognitive scaffold, significantly boosting MLLMs' capabilities for downstream geometry reasoning tasks. Our data and code are available at Geoparsing.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、目覚ましい進歩を遂げているが、幾何学的推論に苦慮し続けている。
形式言語は平面幾何学的な理解を助けてきたが、空間的理解を必要とする固い幾何学はほとんど解明されていない。
本稿では,平面幾何学と固体幾何学を統合した統一形式言語を設計し,幾何学的構造と意味的関係を包括的に記述することで,この問題に対処する。
GDP-29Kは20k面と9k面からなる大規模データセットであり,実世界の様々な情報源から収集された立体形状のサンプルと,その基礎的な形式的記述を組み合わせて構築する。
統語的正しさと幾何的整合性を確保するために,教師付微調整と強化学習を組み合わせた学習パラダイムを提案する。
実験により,本手法が最先端の構文解析性能を実現することを示す。
さらに、解析された形式記述が重要な認知的足場として機能し、下流の幾何学的推論タスクにおけるMLLMの能力を大幅に向上させることを示した。
データとコードはGeoparsingで利用可能です。
関連論文リスト
- TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Do Large Language Models Truly Understand Geometric Structures? [15.915781154075615]
我々はGeomRelデータセットを導入し、大規模言語モデルの幾何学的構造に対する理解を評価する。
我々は,LLMの幾何学的関係を識別する能力を高めるGeometry Chain-of-Thought (GeoCoT)法を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:52:34Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - Geometry Interaction Knowledge Graph Embeddings [153.69745042757066]
ユークリッド空間,双曲空間,超球空間間の空間構造を対話的に学習する幾何学的相互作用知識グラフ埋め込み(GIE)を提案する。
提案したGIEは、よりリッチなリレーショナル情報、モデルキー推論パターンをキャプチャし、エンティティ間の表現的セマンティックマッチングを可能にする。
論文 参考訳(メタデータ) (2022-06-24T08:33:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。