論文の概要: GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions
- arxiv url: http://arxiv.org/abs/2509.21050v1
- Date: Thu, 25 Sep 2025 12:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.883176
- Title: GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions
- Title(参考訳): GeoRef: タスク定式化、合成スーパービジョン、強化MLLMベースのソリューションによる幾何学的表現の参照
- Authors: Bing Liu, Wenqiang Yv, Xuzheng Yang, Shichang Wang, Junzhuo Liu, Peng Wang, Guoqing Wang, Yang Yang, Heng Tao Shen,
- Abstract要約: 本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
- 参考スコア(独自算出の注目度): 45.70578816057097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-driven geometric problem solving is a complex vision-language task that requires accurate diagram interpretation, mathematical reasoning, and robust cross-modal grounding. A foundational yet underexplored capability for this task is the ability to identify and interpret geometric elements based on natural language queries. To address this, we introduce the task of Referring Expression Comprehension (REC) for geometric problems, which evaluates whether models can localize points, shapes, and spatial relations in diagrams in response to textual prompts. We present GeoRef, a benchmark dataset constructed from existing geometric problem corpora, featuring diverse, high-quality annotations and queries. Due to the lack of annotated data for this task, we generate a large-scale synthetic training dataset using a structured geometric formal language, enabling broad coverage of geometric concepts and facilitating model adaptation. We explore two fine-tuning approaches: Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO). Our results show that GRPO significantly outperforms SFT by better aligning model behavior with task-specific rewards. Furthermore, we propose a verify-and-regenerate mechanism that detects incorrect predictions and re-infers answers using contextual reasoning history, further boosting accuracy. Notably, even state-of-the-art Multimodal Large Language Models (MLLMs) struggle with this task, underscoring the necessity of explicitly evaluating and strengthening geometric grounding as a prerequisite for robust geometric problem solving. Moreover, models trained on GeoRef demonstrate measurable improvements on downstream geometric reasoning tasks, highlighting the broader value of REC as a foundation for multimodal mathematical understanding.
- Abstract(参考訳): AI駆動の幾何学的問題解決は、正確な図形解釈、数学的推論、堅牢なクロスモーダルグラウンドを必要とする複雑な視覚言語タスクである。
このタスクの基本的未探索の能力は、自然言語クエリに基づいて幾何学的要素を識別し、解釈する能力である。
そこで本稿では,幾何学的問題に対するReferring Expression Comprehension (REC) の課題について紹介する。
既存の幾何学的問題コーパスから構築されたベンチマークデータセットであるGeoRefについて述べる。
このタスクには注釈付きデータがないため、構造化された幾何学的形式言語を用いて大規模な合成訓練データセットを生成し、幾何学的概念を広範囲にカバーし、モデル適応を容易にする。
我々は,2つの細調整アプローチを探索する: 監視ファインチューニング (SFT) とグループ相対ポリシー最適化 (GRPO) である。
その結果,GRPOはモデル行動とタスク固有報酬との整合性を向上し,SFTを著しく上回ることがわかった。
さらに,不正確な予測を検知し,文脈的推論履歴を用いて回答を再推論し,精度をさらに向上する検証再生機構を提案する。
特に、最先端のMultimodal Large Language Models (MLLM) でさえこの課題に苦慮し、堅牢な幾何学的問題解決の前提条件として幾何学的接地を明確に評価し強化することの必要性を強調している。
さらに、GeoRefでトレーニングされたモデルは、下流の幾何学的推論タスクにおいて測定可能な改善を示し、マルチモーダルな数学的理解の基礎としてRECの幅広い価値を強調している。
関連論文リスト
- GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - MATHGLANCE: Multimodal Large Language Models Do Not Know Where to Look in Mathematical Diagrams [65.02628814094639]
ダイアグラムは視覚言語の基本形として機能し、複雑な概念と、構造化されたシンボル、形状、空間的配置を通してそれらの相互関係を表現する。
現在のベンチマークでは知覚と推論のタスクが明確化されており、マルチモーダルな大規模言語モデルが表面的なパターン認識以上の数学的図形を真に理解しているかどうかを評価することは困難である。
MLLMにおける数学的知覚の分離と評価を目的としたベンチマークであるMATHGLANCEを紹介する。
幾何学的プリミティブと正確な空間関係を付加した200K構造幾何画像テキストの知覚指向データセットであるGeoPePを構築した。
論文 参考訳(メタデータ) (2025-03-26T17:30:41Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [121.07873620883322]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。
G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-18T17:36:20Z) - Evaluating the Effectiveness of Large Language Models in Representing
Textual Descriptions of Geometry and Spatial Relations [2.8935588665357086]
本研究では,大規模言語モデル(LLM)の空間的関係の表現能力を評価することに焦点を当てた。
我々は GPT-2 や BERT などの LLM を用いて、よく知られたジオメトリのテキスト (WKT) フォーマットを符号化し、それらの埋め込みを分類器や回帰器に入力する。
実験では、LLMが生成した埋め込みは幾何型を保存し、いくつかの空間的関係(精度は73%まで)を捉えることができるが、数値を推定し、空間的関連オブジェクトを検索する際の課題が残っている。
論文 参考訳(メタデータ) (2023-07-05T03:50:08Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。