論文の概要: Draw2Think: Harnessing Geometry Reasoning through Constraint Engine Interaction
- arxiv url: http://arxiv.org/abs/2605.20743v1
- Date: Wed, 20 May 2026 05:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.50434
- Title: Draw2Think: Harnessing Geometry Reasoning through Constraint Engine Interaction
- Title(参考訳): Draw2Think: 制約エンジンインタラクションによるハーネスング幾何学推論
- Authors: Juncheng Hu, Jiawei Du, Xin Zhang, Joey Tianyi Zhou,
- Abstract要約: 視覚言語モデルは精度を上げて幾何学的問題を解くが、その中間状態は潜伏し、検証できないままである。
我々は,GeoGebra制約エンジンとのエージェント相互作用に潜時空間推論から幾何推論を再キャストするフレームワークDraw2Thinkを提案する。
- 参考スコア(独自算出の注目度): 59.47026381165585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models solve geometry problems with rising accuracy, yet their intermediate states remain latent and unverifiable: a relation expressed in textual reasoning or drawing code carries no guarantee that a constraint-satisfying configuration realizes it. We observe that existing externalization methods based on rendered pixels or one-shot scripts fail to provide exact, per-action geometric guarantees. Enforcing geometric relations by algebraic definition closes this gap: the workspace becomes a constraint-checked evolving canvas. We present Draw2Think, a framework that recasts geometric reasoning from latent spatial inference into agentic interaction with the GeoGebra constraint engine. In a Propose-Draw-Verify loop, Draw2Think externalizes hypotheses onto an executable canvas, measures exact geometric quantities, and feeds structured observations back to the model, so subsequent reasoning proceeds from checked canvas state grounded by the shared workspace. This externalization makes two properties separately auditable: model-level Construction Fidelity (whether the canvas realizes the intended configuration) and engine-level Measurement Faithfulness (exact values and relations from canvas constraints). Across construction, outcome, and rendering evaluations, Draw2Think builds canvases that pass 95.9% predicate-level and 84.0% strict problem-level construction checks on GeoGoal, improves outcome accuracy by up to 4.1%/16.4% on planar/solid benchmarks, and attains 68.2%/90.5% strict/relaxed rendering scores on GenExam-math. Project page is available at https://draw2think.github.io/
- Abstract(参考訳): テキスト推論や描画コードで表される関係は、制約を満たす構成がそれを実現することを保証しない。
レンダリングされたピクセルやワンショットスクリプトに基づく既存の外部化手法では、正確なアクションごとの幾何保証が得られないことを観察する。
代数的定義による幾何学的関係の強制は、このギャップを閉じる: ワークスペースは制約チェックされた発展的キャンバスとなる。
我々は,GeoGebra制約エンジンとのエージェント相互作用に潜時空間推論から幾何推論を再キャストするフレームワークDraw2Thinkを提案する。
Propose-Draw-Verifyループでは、Draw2Thinkは仮説を実行可能なキャンバスに外部化し、正確な幾何量を測定し、構造化された観測結果をモデルにフィードバックする。
この外部化は、モデルレベルの構成忠実度(キャンバスが意図した構成を実現するかどうか)とエンジンレベルの測定忠実度(キャンバス制約からの値と関係性)という2つの特性を別々に監査可能にする。
建設、結果、レンダリングの評価全体では、Draw2Thinkは95.9%の述語レベルと84.0%の厳密な問題レベルのビルドチェックをGeoGoalでパスし、結果の精度を4.1%/16.4%改善し、GenExam-mathで68.2%/90.5%の厳密/修正レンダリングスコアを達成している。
プロジェクトページはhttps://draw2think.github.io/で公開されている。
関連論文リスト
- GeoBuildBench: A Benchmark for Interactive and Executable Geometry Construction from Natural Language [18.57905469277832]
GeoBuildBench(GeoBuildBench)は、大規模言語モデルとマルチモーダルエージェントが、非公式な自然言語平面幾何学問題を実行可能な幾何学的構成に構築できるかどうかを評価するために設計されたベンチマークである。
我々は、有界反復条件でいくつかの最先端マルチモーダルモデルを評価し、合理的な成功率にもかかわらず、しばしば構造的幻覚、欠落物、幾何学的制約を満たす失敗を示すことを示した。
論文 参考訳(メタデータ) (2026-05-13T08:30:12Z) - Mind the Gap: Geometrically Accurate Generative Reconstruction from Disjoint Views [0.8435195043404353]
本稿では,新たなパラダイムとして,不随意視点からの生成的再構築を紹介する。
提案するGLADOSは,3段階にわたって動作する汎用モジュール型フレームワークである。
アーキテクチャに依存しないフレームワークとして、GLADOSは、生成、再構築、塗装における将来の進歩のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2026-05-08T10:24:23Z) - SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments [75.60795462502949]
SpaceEvoは3D空間推論のための自己進化型フレームワークである。
16の空間推論タスクカテゴリを明示的な幾何学的検証規則で定式化する。
注釈のない3Dシーンをゼロノイズのインタラクティブなオラクルに変換し、モデルコンセンサスを客観的な物理的フィードバックに置き換える。
論文 参考訳(メタデータ) (2026-04-15T17:59:12Z) - Learning Hierarchical and Geometry-Aware Graph Representations for Text-to-CAD [22.163726324892256]
中間表現として階層的および幾何学的認識グラフを提案する。
テキストを直接コードにマッピングする代わりに、私たちのフレームワークはまず構造と制約を予測し、次にアクションシーケンシングとコード生成を条件にします。
提案手法は, 幾何的忠実度と幾何的制約の正確な満足度の両方において, 既存の手法より一貫して優れる。
論文 参考訳(メタデータ) (2026-04-11T07:49:16Z) - Make Geometry Matter for Spatial Reasoning [62.61667611352403]
視覚言語モデル(VLM)は、強いイメージと映像理解を実現するが、静的シーンとダイナミックビデオの両方で空間的推論を行う能力は限られている。
近年の進歩は、事前訓練された3次元基礎モデルから幾何学トークンをVLMに注入することで、この制限に対処しようとしている。
我々は、VLMが幾何トークンで積極的に推論するように促すことにより、幾何学的問題を作るためのフレームワークGeoSRを提案する。
論文 参考訳(メタデータ) (2026-03-27T17:45:12Z) - ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points [32.23473666846317]
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
論文 参考訳(メタデータ) (2025-12-08T12:38:11Z) - Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:50:37Z) - DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。
本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。
提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。