Fugu-MT 論文翻訳(概要): GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language

論文の概要: GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language

arxiv url: http://arxiv.org/abs/2510.27448v1
Date: Fri, 31 Oct 2025 12:56:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-03 17:52:16.106085
Title: GeoFM: Enhancing Geometric Reasoning of MLLMs via Synthetic Data Generation through Formal Language
Title（参考訳）: GeoFM:形式言語による合成データ生成によるMLLMの幾何学的推論の強化
Authors: Yuhao Zhang, Dingxin Hu, Tinghao Yu, Hao Liu, Yiting Liu,
Abstract要約: MLLM(Multi-modal Large Language Models)は、学術と産業の両方において大きな注目を集めている。これらのモデルは、高品質な幾何学的データの不足により、数学的な幾何学的推論の課題に直面している。幾何学的データを合成する新しい手法であるGeoFMを提案する。
参考スコア（独自算出の注目度）: 11.134307550723037
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal Large Language Models (MLLMs) have gained significant attention in both academia and industry for their capabilities in handling multi-modal tasks. However, these models face challenges in mathematical geometric reasoning due to the scarcity of high-quality geometric data. To address this issue, synthetic geometric data has become an essential strategy. Current methods for generating synthetic geometric data involve rephrasing or expanding existing problems and utilizing predefined rules and templates to create geometric images and problems. However, these approaches often produce data that lacks diversity or is prone to noise. Additionally, the geometric images synthesized by existing methods tend to exhibit limited variation and deviate significantly from authentic geometric diagrams. To overcome these limitations, we propose GeoFM, a novel method for synthesizing geometric data. GeoFM uses formal languages to explore combinations of conditions within metric space, generating high-fidelity geometric problems that differ from the originals while ensuring correctness through a symbolic engine. Experimental results show that our synthetic data significantly outperforms existing methods. The model trained with our data surpass the proprietary GPT-4o model by 18.7\% on geometry problem-solving tasks in MathVista and by 16.5\% on GeoQA. Additionally, it exceeds the performance of a leading open-source model by 5.7\% on MathVista and by 2.7\% on GeoQA.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)は、学界と産業の両方において、マルチモーダルタスクを扱う能力において大きな注目を集めている。しかし、これらのモデルは、高品質な幾何学的データの不足により、幾何学的推論の課題に直面している。この問題に対処するためには、合成幾何学的データが重要な戦略となっている。合成幾何データを生成する現在の方法は、既存の問題を言い換えたり、拡張したり、事前に定義された規則やテンプレートを利用して幾何学的画像や問題を作成することである。しかしながら、これらのアプローチは、多様性に欠ける、あるいはノイズのやすいデータを生成することが多い。さらに、既存の方法で合成された幾何学的画像は、限られた変化を示し、真の幾何学的図形から著しく逸脱する傾向にある。このような制約を克服するために,幾何データを合成する新しい手法であるGeoFMを提案する。 GeoFMは形式言語を用いて距離空間内の条件の組み合わせを探索し、記号エンジンによる正確性を確保しつつ、元のものと異なる高忠実な幾何学的問題を発生させる。実験結果から,我々の合成データは既存の手法よりも有意に優れていた。我々のデータでトレーニングされたモデルは、MathVistaの幾何学的問題解決タスクで18.7 %、GeoQAで16.5 %、プロプライエタリGPT-4oモデルで18.7 %を超える。さらに、主要なオープンソースモデルのパフォーマンスをMathVistaで5.7 %、GeoQAで2.7 %上回る。

関連論文リスト

Visual Diffusion Models are Geometric Solvers [54.31602846693932]
画像拡散モデルは,画素空間で作業することで,効果的な幾何学的解法として機能することを示す。最初にこれを、幾何学の長年の問題である印字正方形問題(Inscription Square Problem)で実証する。我々はこのアプローチを、Steiner Tree Problem と Simple Polygon Problem の2つのよく知られた厳密な幾何学的問題に拡張する。
論文参考訳（メタデータ） (2025-10-24T17:57:31Z)
GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。 RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文参考訳（メタデータ） (2025-09-25T12:00:52Z)
Follow the Energy, Find the Path: Riemannian Metrics from Energy-Based Models [63.331590876872944]
本稿では,事前学習したエネルギーベースモデルから直接リーマン計量を導出する手法を提案する。これらの測度は空間的に異なる距離を定義し、測地学の計算を可能にする。 EBM由来のメトリクスは、確立されたベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-05-23T12:18:08Z)
Geo-LLaVA: A Large Multi-Modal Model for Solving Geometry Math Problems with Meta In-Context Learning [4.4615747404424395]
幾何学数学の問題は、大言語モデル(LLM)に重大な課題をもたらす地理マス(GeoMath)と呼ばれる中国の高校教育Webサイトから,幾何学的データを抽出して,幾何学的質問応答データセットを収集する。メタトレーニングと呼ばれる学習段階において、教師付き微調整(SFT)による検索強化を取り入れたGeo-LLaVAと呼ばれるLarge Multi-modal Model(LMM)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T07:34:09Z)
Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文参考訳（メタデータ） (2024-10-23T13:58:39Z)
Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文参考訳（メタデータ） (2024-09-06T12:11:06Z)
GeoGPT4V: Towards Geometric Multi-modal Large Language Models with Geometric Image Generation [15.931398242118073]
GPT-4とGPT-4Vは、アライメントされたテキストと画像で基本的な幾何学的問題を生成するために使用される。我々は4.9Kの幾何問題のデータセットを作成し、それを19Kのオープンソースデータと組み合わせてGeoGPT4Vデータセットを作成しました。その結果、GeoGPT4Vデータセットは、MathVistaおよびMathVisionベンチマークの様々なモデルの幾何性能を著しく改善することを示した。
論文参考訳（メタデータ） (2024-06-17T13:04:27Z)
A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications [71.809127869349]
本稿では、幾何学的メッセージパッシングの観点から、既存のモデルの統一的なビューを提供するデータ構造として幾何学的グラフを定式化する。また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文参考訳（メタデータ） (2024-03-01T12:13:04Z)
Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文参考訳（メタデータ） (2024-02-08T17:57:59Z)
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文参考訳（メタデータ） (2023-12-18T17:36:20Z)
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文参考訳（メタデータ） (2021-05-30T12:34:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。