論文の概要: CapGeo: A Caption-Assisted Approach to Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2510.09302v1
- Date: Fri, 10 Oct 2025 11:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.88582
- Title: CapGeo: A Caption-Assisted Approach to Geometric Reasoning
- Title(参考訳): CapGeo: 幾何学的推論のためのキャプション支援アプローチ
- Authors: Yuying Li, Siyi Qian, Hao Liang, Leqi Zheng, Ruichuan An, Yongzhen Guo, Wentao Zhang,
- Abstract要約: CapGeoは、視覚とテキストのモダリティを橋渡しするキャプション支援推論フレームワークである。
モデルがキャプションを装備している場合、実験は大幅に改善される。
また,4,641個のフィギュアキャプションペアのデータセットであるCapGeo-Benchを提案する。
- 参考スコア(独自算出の注目度): 10.716955074782902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometric reasoning remains a core challenge for Multimodal Large Language Models (MLLMs). Even the most advanced closed-source systems, such as GPT-O3 and Gemini-2.5-Pro, still struggle to solve geometry problems reliably, despite exhibiting strong textual reasoning abilities on tasks like the International Mathematical Olympiad (IMO). This gap suggests that the bottleneck lies in understanding geometric diagrams rather than reasoning itself. Since geometric figures can often be faithfully described in concise textual form, converting visual content into captions offers a promising direction. Motivated by this insight, we introduce CapGeo, a caption-assisted reasoning framework that bridges visual and textual modalities. Experiments show substantial improvements when models are equipped with captions: Qwen2.5-VL-72B improves from 8.6% (vision-only) to 59.0%, while Claude-Opus-4 rises from 44.8% to 73.0%. To systematically evaluate and identify high-quality geometric captioning models, we further propose CapGeo-Bench, a dataset of 4,641 curated figure-caption pairs. Crucially, CapGeo-Bench incorporates a keypoint-based evaluation metric that correlates strongly with downstream CapGeo performance, enabling reliable assessment of geometric captioning ability. Together, our framework and benchmark highlight a new pathway toward advancing geometric reasoning in MLLMs.
- Abstract(参考訳): 幾何学的推論は、MLLM(Multimodal Large Language Models)のコア課題であり続けている。
GPT-O3やGemini-2.5-Proのような最も先進的なクローズドソースシステムでさえ、国際数学オリンピック (IMO) のようなタスクに強いテキスト推論能力を示すにもかかわらず、幾何問題を確実に解くのに苦戦している。
このギャップは、ボトルネックがそれ自体を推論するのではなく、幾何学的図形を理解することにあることを示唆している。
幾何学的図形はしばしば簡潔なテキスト形式で忠実に記述されるので、視覚的コンテンツをキャプションに変換することは有望な方向を提供する。
この知見に触発されたCapGeoは、視覚とテキストのモダリティを橋渡しするキャプション支援推論フレームワークである。
Qwen2.5-VL-72Bは8.6%(ビジョンのみ)から59.0%、Claude-Opus-4は44.8%から73.0%に改善されている。
高品質な幾何学的キャプションモデルを体系的に評価し,同定するために,4,641個のキュレートされたフィギュアキャプションペアのデータセットであるCapGeo-Benchを提案する。
重要な点として、CapGeo-Benchは、下流CapGeoのパフォーマンスと強く相関し、幾何学的キャプション能力の信頼性評価を可能にするキーポイントベースの評価指標を組み込んでいる。
筆者らのフレームワークとベンチマークは,MLLMにおける幾何学的推論の進展に向けた新たな道筋を浮き彫りにしている。
関連論文リスト
- GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning [20.399408869403437]
幾何学的問題解決(GPS)は視覚的理解と記号的推論の両方を必要とする課題である。
既存のベンチマークでは、大きな言語モデルにおいて、人間のような幾何学的推論機構の両次元を共同で評価することができない。
MLLMの幾何学的推論能力を評価するために設計された最初の総合的バイリンガルベンチマークであるGeoSenseを紹介する。
論文 参考訳(メタデータ) (2025-04-17T02:46:27Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。