論文の概要: GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning
- arxiv url: http://arxiv.org/abs/2603.22687v2
- Date: Fri, 27 Mar 2026 03:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.13118
- Title: GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning
- Title(参考訳): GeoTikzBridge: 幾何学的知覚と推論のためのマルチモーダルコード生成の改善
- Authors: Jiayin Sun, Caixia Sun, Boyu Yang, Hailin Li, Xiao Chen, Yi Zhang, Errui Ding, Liang Li, Chao Deng, Junlan Feng,
- Abstract要約: GeoTikzBridgeは、Tikzベースのコード生成を通じて局所的な幾何学的知覚と視覚的推論を強化するフレームワークである。
このフレームワーク内では、2つの補完的なデータセットによってサポートされている2つのモデルを構築します。
- 参考スコア(独自算出の注目度): 68.82147650371216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities. However, they struggle to perceive fine-grained geometric structures, constraining their ability of geometric understanding and visual reasoning. To address this, we propose GeoTikzBridge, a framework that enhances local geometric perception and visual reasoning through tikz-based code generation. Within this framework, we build two models supported by two complementary datasets. The GeoTikzBridge-Base model is trained on GeoTikz-Base dataset, the largest image-to-tikz dataset to date with 2.5M pairs (16 $\times$ larger than existing open-sourced datasets). This process is achieved via iterative data expansion and a localized geometric transformation strategy. Subsequently, GeoTikzBridge-Instruct is fine-tuned on GeoTikz-Instruct dataset which is the first instruction-augmented tikz dataset supporting visual reasoning. Extensive experimental results demonstrate that our models achieve state-of-the-art performance among open-sourced MLLMs. Furthermore, GeoTikzBridge models can serve as plug-and-play reasoning modules for any MLLM(LLM), enhancing reasoning performance in geometric problem-solving. Datasets and codes are publicly available at: https://github.com/sjy-1995/GeoTikzBridge.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
しかし、彼らは微粒な幾何学的構造を理解するのに苦労し、幾何学的理解と視覚的推論の能力を制限した。
そこで我々は,Tikzベースのコード生成による局所的幾何学的知覚と視覚的推論を強化するフレームワークGeoTikzBridgeを提案する。
このフレームワーク内では、2つの補完的なデータセットによってサポートされている2つのモデルを構築します。
GeoTikzBridge-BaseモデルはGeoTikz-Baseデータセットに基づいてトレーニングされている。
このプロセスは反復的なデータ展開と局所的な幾何学的変換戦略によって達成される。
その後、GeoTikzBridge-Instructは、視覚的推論をサポートする最初の命令強化されたTikzデータセットであるGeoTikz-Instructデータセットに基づいて微調整される。
大規模な実験結果から,オープンソースMLLMの最先端性能が得られた。
さらに、GeoTikzBridgeモデルは任意のMLLM(LLM)のプラグアンドプレイ推論モジュールとして機能し、幾何学的問題解決における推論性能を向上させる。
データセットとコードは、https://github.com/sjy-1995/GeoTikzBridge.comで公開されている。
関連論文リスト
- Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution [22.312869477454864]
マルチエージェントシステムに基づく幾何画像のための最初の逆プログラミングフレームワークであるGeo-coderを提案する。
提案手法は,画素アンカーとメートル法駆動のコード進化による幾何学的モデリングに革新的に分離する。
実験により,ジオコーダは幾何再構成精度と視覚的整合性の両方に大きく貢献することが示された。
論文 参考訳(メタデータ) (2026-02-08T00:48:49Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language [11.134307550723037]
MLLM(Multi-modal Large Language Models)は、学術と産業の両方において大きな注目を集めている。
これらのモデルは、高品質な幾何学的データの不足により、数学的な幾何学的推論の課題に直面している。
幾何学的データを合成する新しい手法であるGeoFMを提案する。
論文 参考訳(メタデータ) (2025-10-31T12:56:32Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。
我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。
その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-06-17T13:04:27Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。