論文の概要: GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language
- arxiv url: http://arxiv.org/abs/2510.27448v1
- Date: Fri, 31 Oct 2025 12:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.106085
- Title: GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language
- Title(参考訳): GeoFM:形式言語による合成データ生成によるMLLMの幾何学的推論の強化
- Authors: Yuhao Zhang, Dingxin Hu, Tinghao Yu, Hao Liu, Yiting Liu,
- Abstract要約: MLLM(Multi-modal Large Language Models)は、学術と産業の両方において大きな注目を集めている。
これらのモデルは、高品質な幾何学的データの不足により、数学的な幾何学的推論の課題に直面している。
幾何学的データを合成する新しい手法であるGeoFMを提案する。
- 参考スコア(独自算出の注目度): 11.134307550723037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have gained significant attention in both academia and industry for their capabilities in handling multi-modal tasks. However, these models face challenges in mathematical geometric reasoning due to the scarcity of high-quality geometric data. To address this issue, synthetic geometric data has become an essential strategy. Current methods for generating synthetic geometric data involve rephrasing or expanding existing problems and utilizing predefined rules and templates to create geometric images and problems. However, these approaches often produce data that lacks diversity or is prone to noise. Additionally, the geometric images synthesized by existing methods tend to exhibit limited variation and deviate significantly from authentic geometric diagrams. To overcome these limitations, we propose GeoFM, a novel method for synthesizing geometric data. GeoFM uses formal languages to explore combinations of conditions within metric space, generating high-fidelity geometric problems that differ from the originals while ensuring correctness through a symbolic engine. Experimental results show that our synthetic data significantly outperforms existing methods. The model trained with our data surpass the proprietary GPT-4o model by 18.7\% on geometry problem-solving tasks in MathVista and by 16.5\% on GeoQA. Additionally, it exceeds the performance of a leading open-source model by 5.7\% on MathVista and by 2.7\% on GeoQA.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、学界と産業の両方において、マルチモーダルタスクを扱う能力において大きな注目を集めている。
しかし、これらのモデルは、高品質な幾何学的データの不足により、幾何学的推論の課題に直面している。
この問題に対処するためには、合成幾何学的データが重要な戦略となっている。
合成幾何データを生成する現在の方法は、既存の問題を言い換えたり、拡張したり、事前に定義された規則やテンプレートを利用して幾何学的画像や問題を作成することである。
しかしながら、これらのアプローチは、多様性に欠ける、あるいはノイズのやすいデータを生成することが多い。
さらに、既存の方法で合成された幾何学的画像は、限られた変化を示し、真の幾何学的図形から著しく逸脱する傾向にある。
このような制約を克服するために,幾何データを合成する新しい手法であるGeoFMを提案する。
GeoFMは形式言語を用いて距離空間内の条件の組み合わせを探索し、記号エンジンによる正確性を確保しつつ、元のものと異なる高忠実な幾何学的問題を発生させる。
実験結果から,我々の合成データは既存の手法よりも有意に優れていた。
我々のデータでトレーニングされたモデルは、MathVistaの幾何学的問題解決タスクで18.7 %、GeoQAで16.5 %、プロプライエタリGPT-4oモデルで18.7 %を超える。
さらに、主要なオープンソースモデルのパフォーマンスをMathVistaで5.7 %、GeoQAで2.7 %上回る。
関連論文リスト
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications [71.809127869349]
本稿では、幾何学的メッセージパッシングの観点から、既存のモデルの統一的なビューを提供するデータ構造として幾何学的グラフを定式化する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。