論文の概要: TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
- arxiv url: http://arxiv.org/abs/2504.15780v1
- Date: Tue, 22 Apr 2025 10:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:56:19.560328
- Title: TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving
- Title(参考訳): TrustGeoGen: 信頼できるマルチモーダル幾何学的問題解決のためのスケーラブルで形式化されたデータエンジン
- Authors: Daocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao,
- Abstract要約: 問題生成のためのスケーラブルなデータエンジンTrustGeoGenを提案する。
正式な検証により、TrustGeoGenは、モダリティの整合性を保証するGeoTrust-200Kデータセットを生成する。
実験の結果、GeoTrust-testの精度は49.17%に過ぎなかった。
- 参考スコア(独自算出の注目度): 66.0201510984171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical geometric problem solving (GPS) often requires effective integration of multimodal information and verifiable logical coherence. Despite the fast development of large language models in general problem solving, it remains unresolved regarding with both methodology and benchmarks, especially given the fact that exiting synthetic GPS benchmarks are often not self-verified and contain noise and self-contradicted information due to the illusion of LLMs. In this paper, we propose a scalable data engine called TrustGeoGen for problem generation, with formal verification to provide a principled benchmark, which we believe lays the foundation for the further development of methods for GPS. The engine synthesizes geometric data through four key innovations: 1) multimodal-aligned generation of diagrams, textual descriptions, and stepwise solutions; 2) formal verification ensuring rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling complexity escalation via recursive state generation and 4) our devised GeoExplore series algorithms simultaneously produce multi-solution variants and self-reflective backtracking traces. By formal logical verification, TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity, along with GeoTrust-test testset. Experiments reveal the state-of-the-art models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its evaluation stringency. Crucially, models trained on GeoTrust achieve OOD generalization on GeoQA, significantly reducing logical inconsistencies relative to pseudo-label annotated by OpenAI-o1. Our code is available at https://github.com/Alpha-Innovator/TrustGeoGen
- Abstract(参考訳): 数学的幾何学的問題解決(GPS)は、多モーダル情報と検証可能な論理コヒーレンスを効果的に統合する必要があることが多い。
一般の問題解決における大規模言語モデルの急速な発展にもかかわらず、特に合成GPSベンチマークが自己検証されていないことや、LLMの錯覚によるノイズや自己矛盾情報を含むことを考えると、方法論とベンチマークの両方では未解決のままである。
本稿では,TrustGeoGen というスケーラブルなデータエンジンを提案し,GPS の手法のさらなる発展の基盤となる基本となるベンチマークを提供するための形式的検証を行った。
エンジンは4つの重要な革新を通じて幾何学データを合成する。
1) 図、テキスト記述、ステップワイズソリューションのマルチモーダル・アライン・ジェネレーション
2 規則に適合する推論経路を確保するための形式的検証
3)再帰的状態発生による複雑性エスカレーションを可能にするブートストラップ機構
4) 考案したGeoExploreシリーズアルゴリズムは,複数解の変種と自己回帰バックトラックトレースを同時に生成する。
公式な論理的検証により、TrustGeoGenはGeoTrust-200Kデータセットを、GeoTrust-testテストセットとともに、モダリティの整合性を保証する。
実験では、GeoTrust-testで49.17\%の精度しか達成していない。
重要なことに、GeoTrustでトレーニングされたモデルはGeoQA上でのOOD一般化を実現し、OpenAI-o1で注釈付けされた擬似ラベルに対する論理的矛盾を著しく低減した。
私たちのコードはhttps://github.com/Alpha-Innovator/TrustGeoGenで利用可能です。
関連論文リスト
- Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration [57.95306827012784]
幾何学図のステップワイズ推論パスを自動的に生成するパイプラインであるGeoGenを提案する。
正確なシンボリック推論を活用することで、textbfGeoGenは大規模で高品質な質問応答ペアを生成する。
GeoGen が生成した合成データを用いて,Large Language Model (LLM) である textbfGeoLogic を訓練する。
論文 参考訳(メタデータ) (2025-04-17T09:13:46Z) - Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。
推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。
また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文 参考訳(メタデータ) (2024-07-10T02:45:22Z) - FormalGeo: An Extensible Formalized Framework for Olympiad Geometric
Problem Solving [9.73597821684857]
これは、私たちが過去3年間に達成した一連の研究の中で、初めての論文です。
本稿では,一貫した平面幾何学システムを構築した。
これは、IMOレベルの平面幾何学の課題と、可読性のあるAI自動推論の間に重要な橋渡しとなる。
論文 参考訳(メタデータ) (2023-10-27T09:55:12Z) - A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from
Diagram [33.62866585222121]
マルチモーダル情報を効率的に融合する新しいニューラルソルバであるPGPSNetを提案する。
PGPSNetには幾何学定理と幾何学的表現の知識が豊富にある。
我々はPGPS9Kという,大規模かつ詳細なGPSデータセットを構築した。
論文 参考訳(メタデータ) (2023-02-22T02:38:25Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。