論文の概要: GeoThought: A Dataset for Enhancing Mathematical Geometry Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.21881v1
- Date: Thu, 23 Oct 2025 16:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.630929
- Title: GeoThought: A Dataset for Enhancing Mathematical Geometry Reasoning in Vision-Language Models
- Title(参考訳): GeoThought:視覚言語モデルにおける数学的幾何学推論の強化のためのデータセット
- Authors: Nannan Shi, Chuanyu Qin, Shipeng Song, Man Luo,
- Abstract要約: 6,243個のサンプルを持つGeo-Thought-6Kと10,834個のサンプルを含むGeo-Thought-Augmented-10Kの2つのサブセットからなる包括的幾何学的推論コーパスを開発した。
このデータセットを用いて,問題解決時に詳細な思考プロセスを生成する数学的推論マルチモーダルモデルGeoThought-MLLMを開発した。
我々のモデルは、幾何学的タスクにおける既存のベンチマークよりも優れており、私たちのChain-of-Thoughtデータセットによるトレーニングが、ドメイン内とドメイン外の両方で幾何学的推論能力を改善することを実証しています。
- 参考スコア(独自算出の注目度): 3.66076510862044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong reasoning capabilities in text-based mathematical problem solving; however, when adapted to visual reasoning tasks, particularly geometric problem solving, their performance substantially declines because geometric problems present unique challenges. Specifically, these challenges stem from two key factors: first, the intrinsic complexity of geometry requiring detailed image comprehension and multi-step reasoning, and second, the limitations of existing datasets which lack sufficient scale, diversity, and explicit reasoning traces, consequently hindering effective model training. To address these challenges, we developed the GeoThoughts dataset, a comprehensive geometric reasoning corpus with two subsets: Geo-Thought-6K with 6,243 samples and its augmented version Geo-Thought-Augmented-10K containing 10,834 samples. Each entry includes visual descriptions, step-by-step solutions, explicit reasoning chains, reflection steps, and final answers. Using this dataset, we developed GeoThought-MLLM, a mathematical reasoning multimodal model that generates detailed thinking processes during problem-solving. Our model outperforms existing benchmarks in geometric tasks, demonstrating that training with our Chain-of-Thought dataset improves geometric reasoning capabilities across both in-domain and out-of-domain settings. Finally, we analyze failure cases and observe that errors primarily arise from incorrect interpretation of mathematical concepts or spatial misjudgment. By invoking CoT to correct these mistakes, the model produces correct answers.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストベースの数学的問題解決において強力な推論能力を示しているが、視覚的推論タスク、特に幾何学的問題解決に適応すると、幾何学的問題に固有の課題が存在するため、その性能は著しく低下する。
具体的には、これらの課題は2つの重要な要因に起因している: 1つは、画像の理解と多段階推論を必要とする幾何学の固有の複雑さ、2つ目は、十分なスケール、多様性、明示的な推論トレースが欠如している既存のデータセットの限界であり、結果として効果的なモデルトレーニングを妨げている。
これらの課題に対処するため,Geo-Thoughtsデータセットを開発した。Geo-Thought-6Kは6,243個のサンプルを持ち,Geo-Thought-Augmented-10Kは10,834個のサンプルを含んでいる。
各エントリには、視覚的な説明、ステップバイステップのソリューション、明示的な推論チェーン、リフレクションステップ、最終回答が含まれている。
このデータセットを用いて,問題解決時に詳細な思考プロセスを生成する数学的推論マルチモーダルモデルGeoThought-MLLMを開発した。
我々のモデルは、幾何学的タスクにおける既存のベンチマークよりも優れており、私たちのChain-of-Thoughtデータセットによるトレーニングが、ドメイン内とドメイン外の両方で幾何学的推論能力を改善することを実証しています。
最後に, 故障事例を分析し, 誤りが主に数学的概念の誤った解釈や空間的誤判断から生じることを観察する。
これらのミスを修正するためにCoTを呼び出すことで、モデルは正しい回答を生み出す。
関連論文リスト
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - GeomVerse: A Systematic Evaluation of Large Models for Geometric
Reasoning [17.61621287003562]
幾何学問題のレンズを用いて視覚言語モデル(VLM)を様々な軸に沿って評価する。
複数の軸に沿った制御可能な難易度を持つ幾何学的質問の合成データセットを手続き的に作成する。
最新のVLMのベンチマークを用いて得られた実験結果から,これらのモデルが幾何学的対象に適さないことが示された。
論文 参考訳(メタデータ) (2023-12-19T15:25:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - UniGeo: Unifying Geometry Logical Reasoning via Reformulating
Mathematical Expression [127.68780714438103]
計算と証明の2つの主要な幾何学問題は、通常2つの特定のタスクとして扱われる。
我々は4,998の計算問題と9,543の証明問題を含むUniGeoという大規模統一幾何問題ベンチマークを構築した。
また,複数タスクの幾何変換フレームワークであるGeoformerを提案し,計算と証明を同時に行う。
論文 参考訳(メタデータ) (2022-12-06T04:37:51Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。