論文の概要: CapGeo: A Caption-Assisted Approach to Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2510.09302v1
- Date: Fri, 10 Oct 2025 11:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.88582
- Title: CapGeo: A Caption-Assisted Approach to Geometric Reasoning
- Title(参考訳): CapGeo: 幾何学的推論のためのキャプション支援アプローチ
- Authors: Yuying Li, Siyi Qian, Hao Liang, Leqi Zheng, Ruichuan An, Yongzhen Guo, Wentao Zhang,
- Abstract要約: CapGeoは、視覚とテキストのモダリティを橋渡しするキャプション支援推論フレームワークである。
モデルがキャプションを装備している場合、実験は大幅に改善される。
また,4,641個のフィギュアキャプションペアのデータセットであるCapGeo-Benchを提案する。
- 参考スコア(独自算出の注目度): 10.716955074782902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometric reasoning remains a core challenge for Multimodal Large Language Models (MLLMs). Even the most advanced closed-source systems, such as GPT-O3 and Gemini-2.5-Pro, still struggle to solve geometry problems reliably, despite exhibiting strong textual reasoning abilities on tasks like the International Mathematical Olympiad (IMO). This gap suggests that the bottleneck lies in understanding geometric diagrams rather than reasoning itself. Since geometric figures can often be faithfully described in concise textual form, converting visual content into captions offers a promising direction. Motivated by this insight, we introduce CapGeo, a caption-assisted reasoning framework that bridges visual and textual modalities. Experiments show substantial improvements when models are equipped with captions: Qwen2.5-VL-72B improves from 8.6% (vision-only) to 59.0%, while Claude-Opus-4 rises from 44.8% to 73.0%. To systematically evaluate and identify high-quality geometric captioning models, we further propose CapGeo-Bench, a dataset of 4,641 curated figure-caption pairs. Crucially, CapGeo-Bench incorporates a keypoint-based evaluation metric that correlates strongly with downstream CapGeo performance, enabling reliable assessment of geometric captioning ability. Together, our framework and benchmark highlight a new pathway toward advancing geometric reasoning in MLLMs.
- Abstract(参考訳): 幾何学的推論は、MLLM(Multimodal Large Language Models)のコア課題であり続けている。
GPT-O3やGemini-2.5-Proのような最も先進的なクローズドソースシステムでさえ、国際数学オリンピック (IMO) のようなタスクに強いテキスト推論能力を示すにもかかわらず、幾何問題を確実に解くのに苦戦している。
このギャップは、ボトルネックがそれ自体を推論するのではなく、幾何学的図形を理解することにあることを示唆している。
幾何学的図形はしばしば簡潔なテキスト形式で忠実に記述されるので、視覚的コンテンツをキャプションに変換することは有望な方向を提供する。
この知見に触発されたCapGeoは、視覚とテキストのモダリティを橋渡しするキャプション支援推論フレームワークである。
Qwen2.5-VL-72Bは8.6%(ビジョンのみ)から59.0%、Claude-Opus-4は44.8%から73.0%に改善されている。
高品質な幾何学的キャプションモデルを体系的に評価し,同定するために,4,641個のキュレートされたフィギュアキャプションペアのデータセットであるCapGeo-Benchを提案する。
重要な点として、CapGeo-Benchは、下流CapGeoのパフォーマンスと強く相関し、幾何学的キャプション能力の信頼性評価を可能にするキーポイントベースの評価指標を組み込んでいる。
筆者らのフレームワークとベンチマークは,MLLMにおける幾何学的推論の進展に向けた新たな道筋を浮き彫りにしている。
関連論文リスト
- GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving [55.14836667214487]
GeoFocusは、2つのコアモジュールからなる新しいフレームワークである。
GeoFocusは、主要な特殊モデルよりも4.7%の精度向上を実現している。
多様な視覚条件下でのMATHVERSEの強靭性を示す。
論文 参考訳(メタデータ) (2026-02-09T11:15:01Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - NoReGeo: Non-Reasoning Geometry Benchmark [5.288175082601994]
NoReGeoは、大規模言語モデル(LLM)の固有の幾何学的理解を評価するために設計された新しいベンチマークである。
我々のベンチマークは25のカテゴリにまたがる2500の自明な幾何学的問題で構成されており、それぞれがネイティブな幾何学的理解を通じて純粋に解けるように慎重に設計されている。
我々は、GPT-4のようなフロンティアモデルを含むNoReGeo上の最先端モデルの範囲を評価し、最も先進的なシステムでさえバイナリ分類タスクにおいて、全体的な最大65%の精度を達成することを観察した。
論文 参考訳(メタデータ) (2026-01-15T10:22:55Z) - Milestones over Outcome: Unlocking Geometric Reasoning with Sub-Goal Verifiable Reward [67.00373428443879]
サブゴールレベルの評価と学習へのパラダイムシフトを導入する。
まず,厳密な形式検証データエンジンを用いたベンチマークであるGeoGoalを構築した。
本研究では,スケルトンレートに基づいて,スパース信号を高密度な報酬に置き換えるサブゴール検証リワード(SGVR)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T16:17:56Z) - GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs [7.605833826892782]
本稿では,従来の数学的推論の複雑さではなく,幾何学的複雑性を考慮した3段階分類によって整理された500の精巧な問題のベンチマークを示す。
17個のフロンティアLSMの総合的な評価により,一貫性と顕著な欠陥が明らかとなった。
これらの結果は、プログラム駆動型空間推論によって引き起こされる独特な課題を浮き彫りにし、シンボル-空間幾何学的推論の研究を進めるための貴重な資源としてGeoGramBenchを確立した。
論文 参考訳(メタデータ) (2025-05-23T09:17:07Z) - NeSyGeo: A Neuro-Symbolic Framework for Multimodal Geometric Reasoning Data Generation [23.592137999309546]
NeSyGeoは、幾何学的推論データを生成するための新しいニューロシンボリックフレームワークである。
MLLMの幾何学的推論能力を評価するためのベンチマークNeSyGeo-Testをリリースする。
論文 参考訳(メタデータ) (2025-05-21T16:45:49Z) - GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning [20.399408869403437]
幾何学的問題解決(GPS)は視覚的理解と記号的推論の両方を必要とする課題である。
既存のベンチマークでは、大きな言語モデルにおいて、人間のような幾何学的推論機構の両次元を共同で評価することができない。
MLLMの幾何学的推論能力を評価するために設計された最初の総合的バイリンガルベンチマークであるGeoSenseを紹介する。
論文 参考訳(メタデータ) (2025-04-17T02:46:27Z) - Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning [53.13514542825493]
TRCoT(Theorem-d Reverse Chain-of-Thought Reasoning Synthesis)フレームワークについて述べる。
最初の段階であるTR-Engineは、構造的な記述と性質を持つ定理基底幾何学図を合成する。
第2段階であるTR-Reasonerは、幾何特性と記述フラグメントを交互に検証することで、反復的に質問と回答のペアを洗練するためのリバース推論を採用している。
論文 参考訳(メタデータ) (2024-10-23T13:58:39Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。