論文の概要: GeoMathCode: Understanding Interleaved Math-Code Reasoning for Geometry Problem Solving
- arxiv url: http://arxiv.org/abs/2605.25384v1
- Date: Mon, 25 May 2026 03:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.268577
- Title: GeoMathCode: Understanding Interleaved Math-Code Reasoning for Geometry Problem Solving
- Title(参考訳): GeoMathCode:幾何問題解決のためのインターリーブな数学コード推論を理解する
- Authors: Yingji Zhang, Yong Dai, André Freitas,
- Abstract要約: 本稿では,プログラム表現が中間視覚出力として機能するGeoMathCodeを紹介する。
実験結果から、推論とコード生成のステップは潜在空間で切り離され、教師付き微調整(SFT)により推論多様体はより構造化され、より情報的になることが示された。
階層的な構文的コード構造は、切り離された潜在部分空間として現れ、視覚表現よりも数学的シンボル情報を含んでいる。
- 参考スコア(独自算出の注目度): 27.150884381506884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical reasoning is a hallmark of human intelligence, requiring logical deduction, symbolic manipulation, and abstract thinking. Recent multimodal large language models (MLLMs) have demonstrated strong performance on geometry problems through multi-step reasoning. To better emulate human problem-solving, intermediate steps can incorporate auxiliary visual constructions, such as additional lines or points, which improve geometric interpretation and educational clarity. In this work, we introduce the GeoMathCode, where programmatic representations serve as intermediate visual outputs. We further conduct an in-depth analysis of the underlying reasoning geometry. Experimental results show that reasoning and code generation steps can be disentangled in the latent space, while supervised fine-tuning (SFT) makes the reasoning manifold more structured and informative. Moreover, hierarchical syntactic code structures emerge as disentangled latent subspaces, and contain more mathematical symbolic information than visual representations.
- Abstract(参考訳): 数学的推論は人間の知性の目印であり、論理的推論、象徴的操作、抽象的思考を必要とする。
近年のマルチモーダル大言語モデル (MLLM) は多段階推論による幾何学的問題に対して強い性能を示した。
人間の問題解決をよりうまくエミュレートするために、中間段階は、幾何学的解釈と教育的明瞭さを改善するために、追加の線や点などの補助的な視覚構造を組み込むことができる。
本稿では,プログラム表現が中間視覚出力として機能するGeoMathCodeを紹介する。
さらに、基礎となる推論幾何学の詳細な分析を行う。
実験結果から、推論とコード生成のステップは潜在空間で切り離され、教師付き微調整(SFT)により推論多様体はより構造化され、より情報的になることが示された。
さらに、階層的な構文的符号構造は、非絡み合いの潜在部分空間として現れ、視覚表現よりも数学的な記号情報を含んでいる。
関連論文リスト
- Geoparsing: Diagram Parsing for Plane and Solid Geometry with a Unified Formal Language [60.70116693224378]
我々は平面と固体の幾何学を統合した統一形式言語を設計し、幾何学構造と意味関係を包括的に網羅する。
GDP-29Kは,実世界の様々な情報源から収集した20k平面と9k固体形状のサンプルからなる大規模データセットである。
論文 参考訳(メタデータ) (2026-04-13T15:09:56Z) - SpatialMath: Spatial Comprehension-Infused Symbolic Reasoning for Mathematical Problem-Solving [17.304596904197204]
マルチモーダル・スモール・トゥ・メタル・サイズ言語モデル (MSLM) は、視覚情報とテキスト情報の統合において強力な能力を示している。
現在のモデルは、複雑な視覚入力を正確に分解し、幾何学的知覚と構造的推論を結びつけるのに苦労している。
本研究では,空間表現を構造的シンボリック推論チェーンに統合する空間注入推論フレームワークであるSpatialMathを提案する。
論文 参考訳(メタデータ) (2026-01-24T15:31:20Z) - Fully Geometric Multi-Hop Reasoning on Knowledge Graphs with Transitive Relations [50.05281461410368]
マルチホップ推論のための幾何学的埋め込み手法GeometrEを紹介する。
論理演算を学習する必要はなく、完全に幾何学的解釈可能である。
実験の結果,GeometrEは標準ベンチマークデータセットの最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-05-18T11:17:50Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - Inter-GPS: Interpretable Geometry Problem Solving with Formal Language
and Symbolic Reasoning [123.06420835072225]
3,002の幾何学的問題と密接なアノテーションを形式言語に含む新しい大規模ベンチマークGeometry3Kを構築します。
我々は、Interpretable Geometry Problemsolvr (Inter-GPS)と呼ばれる形式言語と記号推論を用いた新しい幾何学的解法を提案する。
イントラGPSは定理の知識を条件付き規則として取り入れ、記号的推論を段階的に行う。
論文 参考訳(メタデータ) (2021-05-10T07:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。