論文の概要: TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
- arxiv url: http://arxiv.org/abs/2504.15780v2
- Date: Fri, 29 Aug 2025 08:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 17:44:08.732637
- Title: TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
- Title(参考訳): TrustGeoGen: 信頼できるマルチモーダル幾何学的問題解決のための形式検証データエンジン
- Authors: Daocheng Fu, Jianlong Chen, Renqiu Xia, Zijun Chen, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Hongyuan Zha, Junchi Yan, Botian Shi, Yu Qiao, Bo Zhang,
- Abstract要約: TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
- 参考スコア(独自算出の注目度): 106.04001249574786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical geometric problem solving (GPS) demands verifiable logical coherence and multimodal reasoning capabilities. While large language models (LLMs) have shown rapid progress in GPS, their advancement is hindered by the lack of reliable benchmarks and systematic methodologies. A critical challenge is the inherent hallucination in LLMs, which leads to synthetic GPS datasets that are often noisy, unverified, and self-contradictory. To address this, we introduce TrustGeoGen, a data engine that generates formally verified geometric problems to establish a principled and trustworthy benchmark. Our engine integrates four key innovations: 1) Multimodal Alignment, which synchronizes the generation of diagrams, text, and step-by-step solutions; 2) Formal Verification, ensuring all reasoning paths are rule-compliant; 3) Connection Thinking, bridging formal deduction with human-like logical steps; and 4) our \textit{GeoExplore} series algorithms, which produce diverse problem variants with multiple solutions and self-reflective backtracking. Using this engine, we create the GeoTrust-200K dataset and the corresponding GeoTrust-test benchmark, both with guaranteed cross-modal integrity. Experiments reveal that state-of-the-art models achieve only 45.83\% accuracy on GeoTrust-test, highlighting its significant challenge. Furthermore, training on our synthesized data substantially improves model performance on GPS tasks, with strong generalization to out-of-domain (OOD) benchmarks. Our code and data are available at https://github.com/Alpha-Innovator/TrustGeoGen
- Abstract(参考訳): 数学的幾何学的問題解決(GPS)は、検証可能な論理コヒーレンスとマルチモーダル推論能力を必要とする。
大規模言語モデル(LLM)はGPSの急速な進歩を示す一方で、信頼性の高いベンチマークや体系的な手法の欠如によってその進歩は妨げられている。
重要な課題は、LLMの固有の幻覚であり、しばしばうるさい、証明されていない、自己矛盾的な合成GPSデータセットに繋がる。
この問題を解決するために、TrustGeoGenというデータエンジンを導入します。
私たちのエンジンは4つの重要なイノベーションを統合しています。
1) 図形,テキスト及びステップバイステップのソリューションの生成を同期させるマルチモーダルアライメント
2) 形式的検証,すべての理由付けパスが規則に準拠していることを保証する。
3)接続思考,人間的な論理的ステップによる形式的推論,及び
4) 複数解と自己回帰バックトラックを用いた多種多様な問題変種を生成する。
このエンジンを用いて,GeoTrust-200Kデータセットと対応するGeoTrust-testベンチマークを作成する。
実験の結果、現状のモデルはGeoTrust-testで45.83倍の精度しか達成していないことが判明した。
さらに, 合成データのトレーニングにより, GPSタスクのモデル性能が大幅に向上し, ドメイン外ベンチマーク(OOD)への強力な一般化が期待できる。
私たちのコードとデータはhttps://github.com/Alpha-Innovator/TrustGeoGenで公開されています。
関連論文リスト
- AutoGPS: Automated Geometry Problem Solving via Multimodal Formalization and Deductive Reasoning [14.44742282076576]
AutoGPSは、簡潔で信頼性があり、人間の解釈可能な推論プロセスで幾何学的問題を解決する、神経象徴的な協調フレームワークである。
MPFは、ニューラルネットワークのクロスモーダル理解を利用して、幾何学的問題を構造化された形式言語表現に変換する。
DSRは形式化を入力とし、ハイパーグラフ拡張タスクとして幾何学的問題解決を定式化する。
論文 参考訳(メタデータ) (2025-05-29T12:01:20Z) - Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - FormalGeo: An Extensible Formalized Framework for Olympiad Geometric
Problem Solving [9.73597821684857]
これは、私たちが過去3年間に達成した一連の研究の中で、初めての論文です。
本稿では,一貫した平面幾何学システムを構築した。
これは、IMOレベルの平面幾何学の課題と、可読性のあるAI自動推論の間に重要な橋渡しとなる。
論文 参考訳(メタデータ) (2023-10-27T09:55:12Z) - A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram [33.62866585222121]
マルチモーダル情報を効率的に融合する新しいニューラルソルバであるPGPSNetを提案する。
PGPSNetには幾何学定理と幾何学的表現の知識が豊富にある。
我々はPGPS9Kという,大規模かつ詳細なGPSデータセットを構築した。
論文 参考訳(メタデータ) (2023-02-22T02:38:25Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。