論文の概要: Visual Diffusion Models are Geometric Solvers
- arxiv url: http://arxiv.org/abs/2510.21697v1
- Date: Fri, 24 Oct 2025 17:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.565269
- Title: Visual Diffusion Models are Geometric Solvers
- Title(参考訳): 幾何学的解法としての視覚拡散モデル
- Authors: Nir Goren, Shai Yehezkel, Omer Dahary, Andrey Voynov, Or Patashnik, Daniel Cohen-Or,
- Abstract要約: 画像拡散モデルは,画素空間で作業することで,効果的な幾何学的解法として機能することを示す。
最初にこれを、幾何学の長年の問題である印字正方形問題(Inscription Square Problem)で実証する。
我々はこのアプローチを、Steiner Tree Problem と Simple Polygon Problem の2つのよく知られた厳密な幾何学的問題に拡張する。
- 参考スコア(独自算出の注目度): 54.31602846693932
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we show that visual diffusion models can serve as effective geometric solvers: they can directly reason about geometric problems by working in pixel space. We first demonstrate this on the Inscribed Square Problem, a long-standing problem in geometry that asks whether every Jordan curve contains four points forming a square. We then extend the approach to two other well-known hard geometric problems: the Steiner Tree Problem and the Simple Polygon Problem. Our method treats each problem instance as an image and trains a standard visual diffusion model that transforms Gaussian noise into an image representing a valid approximate solution that closely matches the exact one. The model learns to transform noisy geometric structures into correct configurations, effectively recasting geometric reasoning as image generation. Unlike prior work that necessitates specialized architectures and domain-specific adaptations when applying diffusion to parametric geometric representations, we employ a standard visual diffusion model that operates on the visual representation of the problem. This simplicity highlights a surprising bridge between generative modeling and geometric problem solving. Beyond the specific problems studied here, our results point toward a broader paradigm: operating in image space provides a general and practical framework for approximating notoriously hard problems, and opens the door to tackling a far wider class of challenging geometric tasks.
- Abstract(参考訳): 本稿では,視覚拡散モデルが幾何学的解法として有効であることを示す。
これは幾何における長年の問題であり、すべてのヨルダン曲線が四つの点が1つの正方形を成すかどうかを問うものである。
次に、このアプローチを、Steiner Tree Problem と Simple Polygon Problem の2つのよく知られたハード幾何学的問題に拡張する。
本手法は,各問題を画像として扱い,正規の視覚拡散モデルを用いてガウス雑音を正に一致する近似解を表す画像に変換する。
モデルは、ノイズの多い幾何学的構造を正しい構成に変換することを学び、幾何学的推論を画像生成として効果的に再キャストする。
パラメトリックな幾何学的表現に拡散を適用する際に、専門的なアーキテクチャやドメイン固有の適応を必要とする以前の作業とは異なり、問題の視覚的表現に作用する標準的な視覚的拡散モデルを用いている。
この単純さは、生成モデリングと幾何学的問題解決の間の驚くべき橋渡しを浮き彫りにする。
画像空間での操作は、悪名高い難しい問題を近似するための汎用的で実践的なフレームワークを提供し、より広範な幾何学的課題に取り組むための扉を開く。
関連論文リスト
- GeoUni: A Unified Model for Generating Geometry Diagrams, Problems and Problem Solutions [9.55713776359176]
一つのフレームワーク内で問題解と図を生成することのできる最初の統一幾何エキスパートモデルであるGeoUniを提案する。
1.5Bのパラメータしか持たないGeoUniは、幾何学的推論タスクにおいて、671Bのパラメータを持つDeepSeek-R1のようなより大きなモデルに匹敵するパフォーマンスを達成する。
GeoUniは正確な幾何学図の作成にも優れており、GPT-4o画像生成を含むテキスト・ツー・イメージモデルと統一モデルの両方を超越している。
論文 参考訳(メタデータ) (2025-04-14T11:56:55Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす
地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。
メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T07:34:09Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。