論文の概要: Geoint-R1: Formalizing Multimodal Geometric Reasoning with Dynamic Auxiliary Constructions
- arxiv url: http://arxiv.org/abs/2508.03173v1
- Date: Tue, 05 Aug 2025 07:29:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.839898
- Title: Geoint-R1: Formalizing Multimodal Geometric Reasoning with Dynamic Auxiliary Constructions
- Title(参考訳): Geoint-R1:動的補助構造を用いたマルチモーダル幾何推論の形式化
- Authors: Jingxuan Wei, Caijun Jia, Qi Chen, Honghao He, Linzhuang Sun, Conghui He, Lijun Wu, Bihui Yu, Cheng Tan,
- Abstract要約: Geoint-R1はテキスト記述と視覚図から検証可能な幾何学的解を生成するために設計された多モード推論フレームワークである。
形式的幾何学的推論を体系的に評価し,先進的に進めるために,1,885個の厳密な注釈付き幾何学的問題を含むGeointベンチマークを提案する。
Geoint-R1は既存のマルチモーダルおよび数学固有の推論モデルを大きく上回る。
- 参考スコア(独自算出の注目度): 26.491034237276764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical geometric reasoning is essential for scientific discovery and educational development, requiring precise logic and rigorous formal verification. While recent advances in Multimodal Large Language Models (MLLMs) have improved reasoning tasks, existing models typically struggle with formal geometric reasoning, particularly when dynamically constructing and verifying auxiliary geometric elements. To address these challenges, we introduce Geoint-R1, a multimodal reasoning framework designed to generate formally verifiable geometric solutions from textual descriptions and visual diagrams. Geoint-R1 uniquely integrates auxiliary elements construction, formal reasoning represented via Lean4, and interactive visualization. To systematically evaluate and advance formal geometric reasoning, we propose the Geoint benchmark, comprising 1,885 rigorously annotated geometry problems across diverse topics such as plane, spatial, and solid geometry. Each problem includes structured textual annotations, precise Lean4 code for auxiliary constructions, and detailed solution steps verified by experts. Extensive experiments demonstrate that Geoint-R1 significantly surpasses existing multimodal and math-specific reasoning models, particularly on challenging problems requiring explicit auxiliary element constructions.
- Abstract(参考訳): 数学的幾何学的推論は科学的な発見と教育の発展に不可欠であり、正確な論理と厳密な形式的検証を必要とする。
MLLM(Multimodal Large Language Models)の最近の進歩は推論タスクを改善しているが、既存のモデルは特に補助幾何学的要素を動的に構築し検証する際に、形式的幾何学的推論に苦慮している。
これらの課題に対処するために,テキスト記述や視覚図から形式的検証可能な幾何学的解を生成するために設計されたマルチモーダル推論フレームワークGeoint-R1を紹介する。
Geoint-R1は、補助的な要素の構築、Lean4で表現された正式な推論、インタラクティブな視覚化を独自に統合する。
形式的幾何学的推論を体系的に評価し,前進させるために,平面,空間,固体といった多種多様なトピックにまたがる1,885個の厳密な注釈付き幾何学的問題からなるGeointベンチマークを提案する。
それぞれの問題には、構造化されたテキストアノテーション、補助的な構成のための正確なLean4コード、専門家によって検証された詳細なソリューションステップが含まれる。
大規模な実験により、Geoint-R1は既存のマルチモーダルおよび数学固有の推論モデル、特に明示的な補助的要素構成を必要とする問題において、著しく上回っていることが示されている。
関連論文リスト
- Towards Generating Controllable and Solvable Geometry Problem by Leveraging Symbolic Deduction Engine [15.561710194454113]
我々は、幾何学的問題生成のための新しいタスクを導入し、新しいパイプライン手法、SDE-GPG(Symbolic Deduction Engine-based Geometry Problem Generation framework)を提案する。
このフレームワークは記号推論エンジンを活用し,(1)知識点から拡張定義への事前定義されたマッピングテーブルの探索,(2)拡張定義のサンプリングとシンボル推論の実行,(3)未知の問題のフィルタリング,(4)テキスト問題と図表の生成,の4つのステップを含む。
具体的には, 自然言語を形式言語に翻訳する際の固有バイアスを回避するために, マッピングテーブルを設計し, 精巧なチェック機能によって, 知識点や難易度の観点から, 生成した問題を制御できることを保証する。
論文 参考訳(メタデータ) (2025-06-03T07:49:38Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。