論文の概要: GeoSym127K: Scalable Symbolically-verifiable Synthesis for Multimodal Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2605.16371v1
- Date: Sun, 10 May 2026 13:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.299527
- Title: GeoSym127K: Scalable Symbolically-verifiable Synthesis for Multimodal Geometric Reasoning
- Title(参考訳): GeoSym127K:マルチモーダル幾何推論のためのスケーラブルなシンボリック検証合成
- Authors: Jinhao Jing, Zheng Ma, Jinwei Liang, Qiannian Zhao, Shawn Chen, Jing Yang, Por Lip Yee, Prayag Tiwari, Jingjing Bai, Benyou Wang, Lewei Lu, Zhan Su,
- Abstract要約: GeoSym Engineは、自動化されスケーラブルなニューロシンボリックフレームワークである。
正確な記号的基底真理を導き出し、堅牢なレンダリングパイプラインとシームレスに統合する。
GeoSym-Benchは、厳密な評価のための511の複雑なサンプルからなる専門家によるスイートである。
- 参考スコア(独自算出の注目度): 42.5195033452088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) often struggle with geometric reasoning due to visual hallucinations and a lack of mathematically precise Chain-of-Thought (CoT) data. To address this, we propose the GeoSym Engine, an automated and scalable neuro-symbolic framework. By leveraging a type-conditional grammar and an analytic SymGT Solver, it derives exact symbolic ground truths and seamlessly integrates with a robust rendering pipeline to produce high-precision geometric diagrams. Using this engine, we construct GeoSym127K, a difficulty-stratified dataset featuring 51K high-resolution images, 127K questions with symbolic ground truths, and 55K answer-verified CoT QA pairs. We also introduce GeoSym-Bench, an expert-curated suite of 511 complex samples for rigorous evaluation. Through extensive supervised fine-tuning (SFT), we demonstrate that GeoSym drives concentrated improvements specifically on diagram-dependent and multi-step geometry tasks. Our Qwen3-VL-8B model gains an absolute +22.21% on the MathVerse Vision-Only subset and reaches 61.52% (+6.19% improvement) on WeMath, mitigating long-horizon logic fragmentation and outperforming advanced closed-source models like Doubao-1.8. Furthermore, applying Reinforcement Learning with Verifiable Rewards (RLVR) via GRPO reveals that initializing from structural SFT checkpoints substantially elevates the performance ceiling over zero-shot RL. Driven by deterministic exact-match signals, this showcases the robust scaling potential of our verifiable reasoning synthesis. Datasets and code are available at https://huggingface.co/datasets/Tomie0506/GeoSym127K and https://github.com/Tomie56/GeoSym127K.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、視覚幻覚や数学的に正確なCoT(Chain-of-Thought)データがないため、幾何学的推論に苦慮することが多い。
そこで我々は,自律的でスケーラブルなニューロシンボリック・フレームワークであるGeoSym Engineを提案する。
型条件文法と解析的SymGTソルバーを活用することで、正確な記号的基底真理を導き、堅牢なレンダリングパイプラインとシームレスに統合し、高精度な幾何学図を生成する。
このエンジンを用いてGeoSym127Kを構築し,51Kの高分解能画像と117Kの質問と55Kの回答検証CoT QAペアを備える。
また、厳密な評価のために、511の複雑なサンプルを専門家がキュレートしたGeoSym-Benchについても紹介する。
広汎な教師付き微調整(SFT)を通して、GeoSymは図依存および多段階幾何タスクに特化して改善を推進していることを示す。
我々のQwen3-VL-8Bモデルは、MathVerse Vision-Onlyサブセットで絶対+22.21%を獲得し、WeMathで61.52%(+6.19%改善)に達し、長い水平論理の断片化を緩和し、Doubao-1.8のような先進的なクローズドソースモデルよりも優れています。
さらに、GRPOを経由したReinforcement Learning with Verifiable Rewards (RLVR)の適用により、構造的SFTチェックポイントからの初期化がゼロショットRLよりも性能天井を大幅に高めることが明らかになった。
決定論的正確なマッチング信号によって駆動されるこの方法は、検証可能な推論合成の堅牢なスケーリングポテンシャルを示す。
データセットとコードはhttps://huggingface.co/datasets/Tomie0506/GeoSym127Kとhttps://github.com/Tomie56/GeoSym127Kで入手できる。
関連論文リスト
- DynaSolidGeo: A Dynamic Benchmark for Genuine Spatial Mathematical Reasoning of VLMs in Solid Geometry [21.08408074777344]
DynaSolidGeoは視覚言語モデル(VLM)における真の空間的推論を評価するためのベンチマークである
専門家による503のシード質問が含まれており、原則として、多様なマルチモーダルテキストビジュアルインスタンスを動的に生成することができる。
我々は、論理的妥当性と因果コヒーレンスを測定するために、専門家アノテート推論チェーンに基づくプロセス評価を取り入れた。
論文 参考訳(メタデータ) (2025-10-25T15:49:45Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoSDF: Plane Geometry Diagram Synthesis via Signed Distance Field [44.69687092535381]
平面幾何学図合成は、教育ツールからAIによる数学的推論まで、コンピュータグラフィックスにおいて重要なタスクである。
サイン付き距離場(Signed Distance Field, SDF)を用いて, ダイアグラムを自動的に, 正確に生成する新しいフレームワークGeoSDFを提案する。
我々のGeoSDFでは、幾何学的要素や制約を表現するための記号言語を定義し、合成された幾何学図をSDFで自己検証することができる。
論文 参考訳(メタデータ) (2025-06-16T13:50:55Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。