論文の概要: GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language
- arxiv url: http://arxiv.org/abs/2605.13167v1
- Date: Wed, 13 May 2026 08:30:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.91362
- Title: GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language
- Title(参考訳): GeoBuildBench: 自然言語によるインタラクティブかつ実行可能な幾何学構築のためのベンチマーク
- Authors: Jinwoong Kim, Rui Yang, Huishuai Zhang,
- Abstract要約: GeoBuildBench(GeoBuildBench)は、大規模言語モデルとマルチモーダルエージェントが、非公式な自然言語平面幾何学問題を実行可能な幾何学的構成に構築できるかどうかを評価するために設計されたベンチマークである。
我々は、有界反復条件でいくつかの最先端マルチモーダルモデルを評価し、合理的な成功率にもかかわらず、しばしば構造的幻覚、欠落物、幾何学的制約を満たす失敗を示すことを示した。
- 参考スコア(独自算出の注目度): 18.57905469277832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GeoBuildBench, a benchmark designed to evaluate whether large language models and multimodal agents can ground informal natural-language plane geometry problems into executable geometric constructions. Unlike existing geometry benchmarks that focus on answer correctness or static diagram interpretation, GeoBuildBench treats geometry diagram as an interactive construction task: given a textual problem, an agent must generate a domain-specific language (DSL) program to produce a diagram satisfying explicitly specified geometric objects and verifiable constraints. The benchmark features 489 Chinese textbook-style problems, curated through automated filtering and human validation to ensure text-complete, constructible problem specifications. We evaluate several state-of-the-art multimodal models in a bounded iterative setting and show that, despite reasonable success rates, models frequently exhibit structural hallucinations, missing objects, and failures to satisfy geometric constraints, with limited ability to exploit visual and constraint-based feedback for self-correction. These results highlight geometry construction as a rigorous testbed for grounded, executable reasoning beyond textual or visual plausibility. Our benchmark and code are publicly available.
- Abstract(参考訳): GeoBuildBenchは,大規模言語モデルとマルチモーダルエージェントが,非公式な自然言語平面幾何学的問題を実行可能な幾何学的構成に定義できるかどうかを評価するためのベンチマークである。
GeoBuildBenchは、答えの正しさや静的な図解釈に重点を置いている既存の幾何学ベンチマークとは異なり、幾何学図をインタラクティブな構成タスクとして扱う。
ベンチマークでは、489の中国語の教科書スタイルの問題を自動フィルタリングと人間の検証によってキュレーションし、テキスト完全で構築可能な問題仕様を保証する。
我々は,有理な成功率にもかかわらず,視覚的および制約的フィードバックを自己補正に活用する能力に制限のある,幾何学的制約を満たすための構造的幻覚,物体の欠如,失敗をしばしば示すことを示す。
これらの結果は、テキストや視覚的可視性を超えた、接地的で実行可能な推論のための厳密なテストベッドとして、幾何学的構成を強調している。
私たちのベンチマークとコードは公開されています。
関連論文リスト
- Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language [60.70116693224378]
我々は平面と固体の幾何学を統合した統一形式言語を設計し、幾何学構造と意味関係を包括的に網羅する。
GDP-29Kは,実世界の様々な情報源から収集した20k平面と9k固体形状のサンプルからなる大規模データセットである。
論文 参考訳(メタデータ) (2026-04-13T15:09:56Z) - Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD [22.163726324892256]
中間表現として階層的および幾何学的認識グラフを提案する。
テキストを直接コードにマッピングする代わりに、私たちのフレームワークはまず構造と制約を予測し、次にアクションシーケンシングとコード生成を条件にします。
提案手法は, 幾何的忠実度と幾何的制約の正確な満足度の両方において, 既存の手法より一貫して優れる。
論文 参考訳(メタデータ) (2026-04-11T07:49:16Z) - Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code [27.26235987246201]
マルチモーダル幾何推論は、視覚図を共同で理解し、構造化されたシンボル推論を実行するモデルを必要とする。
我々は,スクラッチから複雑なマルチモーダル幾何問題に対するパイプラインを提案し,問題生成をシンボリックシード構造に分離するtextbfGeoCode というデータセットを構築した。
さらに、コード予測を明示的なアライメント目標として導入し、視覚的理解を教師付き構造化予測タスクに変換する。
論文 参考訳(メタデータ) (2026-02-21T07:53:48Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - GeoLoom: High-quality Geometric Diagram Generation from Textual Input [41.9055060542649]
幾何学領域におけるテキスト・ダイアグラム生成のための新しいフレームワークであるGeoLoomを提案する。
GeoLoomは、自然言語を世代指向の形式言語GeoLinguaに変換する自動形式化モジュールである。
このフレームワークをサポートするために、自然言語の幾何学的記述と公式なGeoLingua記述とを整合させたデータセットGeoNFを紹介する。
論文 参考訳(メタデータ) (2025-12-09T02:22:23Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。