論文の概要: NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation
- arxiv url: http://arxiv.org/abs/2505.17121v1
- Date: Wed, 21 May 2025 16:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.584802
- Title: NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation
- Title(参考訳): NeSyGeo:マルチモーダル幾何推論データ生成のためのニューロシンボリックフレームワーク
- Authors: Weiming Wu, Zi-kang Wang, Jin Ye, Zhi Zhou, Yu-Feng Li, Lan-Zhe Guo,
- Abstract要約: 幾何学的推論データを生成するためのニューラルシンボリックなフレームワークNeSyGeoを提案する。
我々は,大規模言語モデルにおける幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースした。
- 参考スコア(独自算出の注目度): 47.58527162381057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining large-scale, high-quality data with reasoning paths is crucial for improving the geometric reasoning capabilities of multi-modal large language models (MLLMs). However, existing data generation methods, whether based on predefined templates or constrained symbolic provers, inevitably face diversity and numerical generalization limitations. To address these limitations, we propose NeSyGeo, a novel neuro-symbolic framework for generating geometric reasoning data. First, we propose a domain-specific language grounded in the entity-relation-constraint paradigm to comprehensively represent all components of plane geometry, along with generative actions defined within this symbolic space. We then design a symbolic-visual-text pipeline that synthesizes symbolic sequences, maps them to corresponding visual and textual representations, and generates diverse question-answer (Q&A) pairs using large language models (LLMs). To the best of our knowledge, we are the first to propose a neuro-symbolic approach in generating multimodal reasoning data. Based on this framework, we construct NeSyGeo-CoT and NeSyGeo-Caption datasets, containing 100k samples, and release a new benchmark NeSyGeo-Test for evaluating geometric reasoning abilities in MLLMs. Experiments demonstrate that the proposal significantly and consistently improves the performance of multiple MLLMs under both reinforcement and supervised fine-tuning. With only 4k samples and two epochs of reinforcement fine-tuning, base models achieve improvements of up to +15.8% on MathVision, +8.4% on MathVerse, and +7.3% on GeoQA. Notably, a 4B model can be improved to outperform an 8B model from the same series on geometric reasoning tasks.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の幾何学的推論能力を向上させるためには,大規模で高品質な推論経路を持つデータを得ることが不可欠である。
しかし、事前定義されたテンプレートや制約付きシンボルプロバーをベースとした既存のデータ生成手法は、必然的に多様性や数値一般化の制限に直面している。
これらの制約に対処するため、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークNeSyGeoを提案する。
まず、平面幾何学のすべての構成要素を包括的に表現し、この記号空間内で定義された生成動作を包括的に表現するために、エンティティ-リレーション-制約パラダイムに基づくドメイン固有言語を提案する。
次に、記号列を合成し、対応する視覚的およびテキスト的表現にマップし、大規模言語モデル(LLM)を用いて様々な質問応答(Q&A)ペアを生成する記号-視覚的テキストパイプラインを設計する。
我々の知る限りでは、我々はマルチモーダル推論データを生成するためのニューロシンボリックアプローチを最初に提案する。
この枠組みに基づいて,100kサンプルを含むNeSyGeo-CoTおよびNeSyGeo-Captionデータセットを構築し,MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
実験により、この提案は、強化および教師付き微調整の両方の下で、複数のMLLMの性能を著しく、一貫して改善することを示した。
4kサンプルと2回の強化微調整により、ベースモデルはMathVisionで+15.8%、MathVerseで+8.4%、GeoQAで+7.3%の改善を実現している。
特に、4Bモデルは、幾何学的推論タスクにおいて、同じシリーズから8Bモデルを上回るように改善することができる。
関連論文リスト
- Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions [23.294711275107606]
本稿では,画像から2次元の幾何情報を正確に転写するMLLMの能力を評価するベンチマークであるGeoperceptionを紹介する。
次に、幾何学的タスクにおける性能向上のための戦略を探るため、総合的な実証的研究を行う。
我々は,強低レベルの幾何学的知覚に特化して最適化されたモデル群であるEuclidを開発する。
論文 参考訳(メタデータ) (2024-12-11T19:12:13Z) - R-CoT: Reverse Chain-of-Thought Problem Generation for Geometric Reasoning in Large Multimodal Models [86.06825304372613]
本稿では,R-CoT(Reverse Chain-of-Thought)幾何問題生成パイプラインを提案する。
まず、GeoChainを導入し、高忠実度幾何画像とそれに対応する記述を生成する。
次に、記述に基づいてステップバイステップの推論を行うReverse A&Q手法を設計し、推論結果から逆の質問を生成する。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - Grounding Continuous Representations in Geometry: Equivariant Neural Fields [26.567143650213225]
そこで我々は,幾何インフォームド・クロスアテンションを用いた新しいCNFアーキテクチャを提案する。
このアプローチは、フィールドと潜伏剤の両方を幾何学的にグラウンド化することによって、ステアビリティ特性を誘導することを示す。
分類,セグメンテーション,予測,再構築,生成モデルなど,様々なタスクにおいて,これらの主な特性を検証する。
論文 参考訳(メタデータ) (2024-06-09T12:16:30Z) - A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications [71.809127869349]
本稿では、幾何学的メッセージパッシングの観点から、既存のモデルの統一的なビューを提供するデータ構造として幾何学的グラフを定式化する。
また、方法論開発と実験評価の後の研究を促進するために、アプリケーションと関連するデータセットを要約する。
論文 参考訳(メタデータ) (2024-03-01T12:13:04Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。