論文の概要: Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code
- arxiv url: http://arxiv.org/abs/2602.18745v1
- Date: Sat, 21 Feb 2026 07:53:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.282383
- Title: Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code
- Title(参考訳): スクラッチによるマルチモーダル幾何データセットの合成とプロッティングコードによる視覚的アライメントの実現
- Authors: Haobo Lin, Tianyi Bai, Chen Chen, Jiajun Zhang, Bohan Zeng, Wentao Zhang, Binhang Yuan,
- Abstract要約: マルチモーダル幾何推論は、視覚図を共同で理解し、構造化されたシンボル推論を実行するモデルを必要とする。
我々は,スクラッチから複雑なマルチモーダル幾何問題に対するパイプラインを提案し,問題生成をシンボリックシード構造に分離するtextbfGeoCode というデータセットを構築した。
さらに、コード予測を明示的なアライメント目標として導入し、視覚的理解を教師付き構造化予測タスクに変換する。
- 参考スコア(独自算出の注目度): 27.26235987246201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal geometry reasoning requires models to jointly understand visual diagrams and perform structured symbolic inference, yet current vision--language models struggle with complex geometric constructions due to limited training data and weak visual--symbolic alignment. We propose a pipeline for synthesizing complex multimodal geometry problems from scratch and construct a dataset named \textbf{GeoCode}, which decouples problem generation into symbolic seed construction, grounded instantiation with verification, and code-based diagram rendering, ensuring consistency across structure, text, reasoning, and images. Leveraging the plotting code provided in GeoCode, we further introduce code prediction as an explicit alignment objective, transforming visual understanding into a supervised structured prediction task. GeoCode exhibits substantially higher structural complexity and reasoning difficulty than existing benchmarks, while maintaining mathematical correctness through multi-stage validation. Extensive experiments show that models trained on GeoCode achieve consistent improvements on multiple geometry benchmarks, demonstrating both the effectiveness of the dataset and the proposed alignment strategy. The code will be available at https://github.com/would1920/GeoCode.
- Abstract(参考訳): マルチモーダル幾何推論は、視覚図を共同で理解し、構造化されたシンボル推論を実行するモデルを必要とするが、現在の視覚モデルでは、限られた訓練データと弱い視覚-象徴的アライメントのために複雑な幾何学的構造に苦しむ。
本稿では,複雑なマルチモーダル幾何問題をスクラッチから合成するパイプラインを提案し,問題生成をシンボリックシード構築,検証による接地的インスタンス化,コードベースのダイアグラムレンダリングに分解し,構造,テキスト,推論,画像間の整合性の確保を行う,‘textbf{GeoCode}’というデータセットを構築した。
また、GeoCodeで提供されるプロットコードを利用して、コード予測を明示的なアライメント目的として導入し、視覚的理解を教師付き構造化予測タスクに変換する。
GeoCodeは、既存のベンチマークよりも構造的な複雑さと推論の難しさがかなり高く、マルチステージ検証による数学的正確性を維持している。
大規模な実験により、GeoCodeでトレーニングされたモデルは、複数の幾何ベンチマークで一貫した改善を実現し、データセットの有効性と提案されたアライメント戦略の両方を実証した。
コードはhttps://github.com/would 1920/GeoCodeで入手できる。
関連論文リスト
- Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution [22.312869477454864]
マルチエージェントシステムに基づく幾何画像のための最初の逆プログラミングフレームワークであるGeo-coderを提案する。
提案手法は,画素アンカーとメートル法駆動のコード進化による幾何学的モデリングに革新的に分離する。
実験により,ジオコーダは幾何再構成精度と視覚的整合性の両方に大きく貢献することが示された。
論文 参考訳(メタデータ) (2026-02-08T00:48:49Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - GeoGNN: Quantifying and Mitigating Semantic Drift in Text-Attributed Graphs [59.61242815508687]
テキスト分散グラフ(TAG)上のグラフニューラルネットワーク(GNN)は、事前訓練された言語モデル(PLM)を使用してノードテキストを符号化し、これらの埋め込みを線形近傍アグリゲーションを通じて伝播する。
本研究は,意味的ドリフトの度合いを計測する局所PCAベースの計量を導入し,異なる凝集機構が多様体構造にどのように影響するかを解析するための最初の定量的枠組みを提供する。
論文 参考訳(メタデータ) (2025-11-12T06:48:43Z) - GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation [54.53486231309254]
ソリッド幾何学における補助線形推論に適したオープンソースのLVLMであるGeoVLMathを提案する。
我々は,LVLMの表現強度に整合性を持たせるために,補助線構成のテキスト記述を生成する。
この報酬に基づいて構築されたGeoVLMathは、固体幾何学における補助線形推論に適したオープンソースのLVLMである。
論文 参考訳(メタデータ) (2025-10-13T05:33:51Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - GeoCoder: Solving Geometry Problems by Generating Modular Code through Vision-Language Models [10.443672399225983]
視覚パラメトリックモデル(VLM)は、様々なマルチモーダルタスクにおいて大きな進歩を遂げた。
彼らはいまだに幾何学的な問題に悩まされており、事前訓練中に見えない数学的操作を行うことができないため、著しく制限されている。
モジュール型コードファインタニングを利用して,事前に定義された幾何関数ライブラリを使用してコードの生成と実行を行うGeoCoderを提案する。
論文 参考訳(メタデータ) (2024-10-17T12:56:52Z) - DSG-Net: Learning Disentangled Structure and Geometry for 3D Shape
Generation [98.96086261213578]
DSG-Netは3次元形状の非交叉構造と幾何学的メッシュ表現を学習するディープニューラルネットワークである。
これは、幾何(構造)を不変に保ちながら構造(幾何学)のような不整合制御を持つ新しい形状生成アプリケーションの範囲をサポートする。
本手法は,制御可能な生成アプリケーションだけでなく,高品質な合成形状を生成できる。
論文 参考訳(メタデータ) (2020-08-12T17:06:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。