論文の概要: MagicGeo: Training-Free Text-Guided Geometric Diagram Generation
- arxiv url: http://arxiv.org/abs/2502.13855v1
- Date: Wed, 19 Feb 2025 16:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:45.555075
- Title: MagicGeo: Training-Free Text-Guided Geometric Diagram Generation
- Title(参考訳): MagicGeo: トレーニング不要のテキストガイド付き幾何学図生成
- Authors: Junxiao Wang, Ting Zhang, Heng Yu, Jingdong Wang, Hua Huang,
- Abstract要約: 本稿では,テキスト記述から幾何学図を生成するためのトレーニングフリーフレームワークMagicGeoを提案する。
MagicGeoは、ダイアグラム生成プロセスを座標最適化問題として定式化し、形式言語ソルバによる幾何的正しさを確保し、座標認識生成を使用する。
220の幾何学的図式記述のベンチマークデータセットであるMagicGeoBenchを導入し、MagicGeoが定性評価と定量的評価の両方で現在の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 39.30134393001854
- License:
- Abstract: Geometric diagrams are critical in conveying mathematical and scientific concepts, yet traditional diagram generation methods are often manual and resource-intensive. While text-to-image generation has made strides in photorealistic imagery, creating accurate geometric diagrams remains a challenge due to the need for precise spatial relationships and the scarcity of geometry-specific datasets. This paper presents MagicGeo, a training-free framework for generating geometric diagrams from textual descriptions. MagicGeo formulates the diagram generation process as a coordinate optimization problem, ensuring geometric correctness through a formal language solver, and then employs coordinate-aware generation. The framework leverages the strong language translation capability of large language models, while formal mathematical solving ensures geometric correctness. We further introduce MagicGeoBench, a benchmark dataset of 220 geometric diagram descriptions, and demonstrate that MagicGeo outperforms current methods in both qualitative and quantitative evaluations. This work provides a scalable, accurate solution for automated diagram generation, with significant implications for educational and academic applications.
- Abstract(参考訳): 幾何学図は数学的、科学的な概念を伝達するのに重要であるが、伝統的な図生成法はしばしば手動と資源集約である。
テキスト・ツー・イメージ生成は、フォトリアリスティックな画像に進歩をもたらしたが、正確な空間関係と幾何学固有のデータセットの不足のため、正確な幾何学図を作成することは依然として困難である。
本稿では,テキスト記述から幾何学図を生成するためのトレーニングフリーフレームワークMagicGeoを提案する。
MagicGeoは、ダイアグラム生成プロセスを座標最適化問題として定式化し、形式言語ソルバによる幾何的正しさを保証し、座標認識生成を使用する。
このフレームワークは、大きな言語モデルの強い言語翻訳能力を活用し、形式的な数学的解決は幾何学的正確性を保証する。
さらに、220の幾何図式記述のベンチマークデータセットであるMagicGeoBenchを導入し、MagicGeoが定性評価と定量的評価の両方で現在の手法より優れていることを示す。
この作業は、自動化ダイアグラム生成のためのスケーラブルで正確なソリューションを提供する。
関連論文リスト
- GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす
地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。
メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T07:34:09Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - AutoGeo: Automating Geometric Image Dataset Creation for Enhanced Geometry Understanding [18.223835101407637]
本稿では,幾何学的画像の自動生成手法であるAutoGeoを紹介する。
正確に定義された幾何学的節を活用することで、AutoGeo-100kは様々な幾何学的形を含んでいる。
実験結果から,幾何画像の処理能力の大幅な向上が示唆された。
論文 参考訳(メタデータ) (2024-08-28T14:49:26Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and
Applications [67.33002207179923]
本稿では、幾何学的GNNに関するデータ構造、モデル、および応用について調査する。
幾何学的メッセージパッシングの観点から既存のモデルの統一的なビューを提供する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。