論文の概要: GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation
- arxiv url: http://arxiv.org/abs/2510.11020v1
- Date: Mon, 13 Oct 2025 05:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.21244
- Title: GeoVLMath: Enhancing Geometry Reasoning in Vision-Language Models via Cross-Modal Reward for Auxiliary Line Creation
- Title(参考訳): GeoVLMath:補助線作成のためのクロスモーダルリワードによる視覚言語モデルにおける幾何学推論の強化
- Authors: Shasha Guo, Liang Pang, Xi Wang, Yanling Wang, Huawei Shen, Jing Zhang,
- Abstract要約: ソリッド幾何学における補助線形推論に適したオープンソースのLVLMであるGeoVLMathを提案する。
我々は,LVLMの表現強度に整合性を持たせるために,補助線構成のテキスト記述を生成する。
この報酬に基づいて構築されたGeoVLMathは、固体幾何学における補助線形推論に適したオープンソースのLVLMである。
- 参考スコア(独自算出の注目度): 54.53486231309254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Auxiliary lines are essential for solving complex geometric problems but remain challenging for large vision-language models (LVLMs). Rather than editing diagrams to draw auxiliary lines, which current image editing models struggle to render with geometric precision, we generate textual descriptions of auxiliary-line constructions to better align with the representational strengths of LVLMs. To bridge the gap between textual descriptions and spatial structure, we propose a reinforcement learning framework that enhances diagram-text alignment. At the core of our approach is a cross-modal reward that evaluates how well the generated auxiliary-line description for an original diagram matches a ground-truth auxiliary-line diagram. Built on this reward, we present GeoVLMath, an open-source LVLM tailored to auxiliary-line reasoning in solid geometry. This fine-grained signal drives a GRPO-based RL stage, yielding precise diagram-text alignment. To support training, we develop a scalable data creation pipeline and construct AuxSolidMath, a dataset of 3,018 real-exam geometry problems with paired diagrams and aligned textual fields. At the 3B and 7B scales, GeoVLMath achieves competitive and often superior performance compared with strong open-source and proprietary LVLMs on auxiliary-line reasoning benchmarks.
- Abstract(参考訳): 補助線は複雑な幾何学的問題を解くのに不可欠であるが、大きな視覚言語モデル(LVLM)では依然として困難である。
画像編集モデルが幾何学的精度でレンダリングに苦しむ補助線を描画する図を編集する代わりに,LVLMの表現強度によく適合するように,補助線構成のテキスト記述を生成する。
テキスト記述と空間構造とのギャップを埋めるために,図形テキストのアライメントを強化する強化学習フレームワークを提案する。
提案手法のコアとなるのは,原図に対する生成した補助線記述が基底トラス補助線図とどの程度うまく一致しているかを評価する,クロスモーダル報酬 (cross-modal reward) である。
この報酬に基づいて構築されたGeoVLMathは、固体幾何学における補助線形推論に適したオープンソースのLVLMである。
この微細な信号はGRPOベースのRLステージを駆動し、正確な図形テキストアライメントをもたらす。
トレーニングを支援するために,スケーラブルなデータ生成パイプラインを開発し,ペア図と整列テキストフィールドを用いた3,018個の実測幾何問題のデータセットであるAuxSolidMathを構築した。
3B と 7B のスケールでは、GeoVLMath は、強力なオープンソースとプロプライエタリな LVLM の補助線形推論ベンチマークと比較して、競争力があり、しばしば優れたパフォーマンスを達成している。
関連論文リスト
- Synthesizing Multimodal Geometry Datasets from Scratch and Enabling Visual Alignment via Plotting Code [27.26235987246201]
マルチモーダル幾何推論は、視覚図を共同で理解し、構造化されたシンボル推論を実行するモデルを必要とする。
我々は,スクラッチから複雑なマルチモーダル幾何問題に対するパイプラインを提案し,問題生成をシンボリックシード構造に分離するtextbfGeoCode というデータセットを構築した。
さらに、コード予測を明示的なアライメント目標として導入し、視覚的理解を教師付き構造化予測タスクに変換する。
論文 参考訳(メタデータ) (2026-02-21T07:53:48Z) - Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Concise Geometric Description as a Bridge: Unleashing the Potential of LLM for Plane Geometry Problem Solving [50.05273675575345]
PlaneThought Problem Solving (PGPS) は幾何学図と問題テキスト記述に基づく平面幾何学的問題を解決することを目的としている。
大規模言語モデル(LLM)は強力な推論能力を有しており、PGPSへの直接的な応用は視覚図の処理能力の欠如によって妨げられている。
視覚図の幾何学的記述を生成するためにMLLMインタープリタを訓練し、既製のLCMを用いて推論を行う。
論文 参考訳(メタデータ) (2026-01-29T02:03:33Z) - 3DAlign-DAER: Dynamic Attention Policy and Efficient Retrieval Strategy for Fine-grained 3D-Text Alignment at Scale [13.561331612635044]
3DAlign-DAERはテキストと3D幾何を動的アテンションポリシーと効率的な検索戦略によって整列するように設計されたフレームワークである。
テキスト3Dアライメントの研究を容易にし、3DAlign-DAERを訓練するために、2Mのテキスト3Dペアを備えた大規模データセットAlign3D-2Mを構築した。
論文 参考訳(メタデータ) (2025-11-17T10:23:29Z) - GILT: An LLM-Free, Tuning-Free Graph Foundational Model for In-Context Learning [50.40400074353263]
グラフニューラルネットワーク(GNN)は、リレーショナルデータを先行する強力なツールであるが、しばしば目に見えないグラフに一般化するのに苦労する。
textbfGraph textbfIn-context textbfL textbfTransformer (GILT)を導入する。
論文 参考訳(メタデータ) (2025-10-06T08:09:15Z) - GeoRef: Referring Expressions in Geometry via Task Formulation, Synthetic Supervision, and Reinforced MLLM-based Solutions [45.70578816057097]
本稿では,幾何学的問題に対するReferring Expression (REC) の課題を紹介する。
RECは、テキストのプロンプトに応じて図形の点、形、空間関係をローカライズできるかどうかを評価する。
構造化幾何形式言語を用いた大規模合成学習データセットを生成する。
論文 参考訳(メタデータ) (2025-09-25T12:00:52Z) - GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。
GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。
従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文 参考訳(メタデータ) (2025-09-09T07:14:31Z) - GeoSDF: Plane Geometry Diagram Synthesis via Signed Distance Field [23.189928895665467]
平面幾何学図合成は、教育ツールからAIによる数学的推論まで、コンピュータグラフィックスにおいて重要なタスクである。
署名距離場(Signed Distance Field, SDF)を用いて, 図の自動生成を行う新しいフレームワークGeoSDFを提案する。
我々はGeoSDFにおいて、幾何学的要素や制約を簡単に表現するための記号言語を定義し、合成された幾何学図をSDFで自己検証することができる。
論文 参考訳(メタデータ) (2025-06-16T13:50:55Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Point or Line? Using Line-based Representation for Panoptic Symbol Spotting in CAD Drawings [67.5600169375126]
ベクトルグラフィカルプリミティブからなるCAD図面におけるパノプティカルシンボルスポッティングの課題について検討する。
既存の手法は通常、画像化、グラフ構築、あるいは点ベースの表現に依存している。
本稿では,プリミティブの行ベースの表現を通じてこれらの課題に対処する新しい手法であるVecFormerを提案する。
論文 参考訳(メタデータ) (2025-05-29T12:33:11Z) - Diagram Formalization Enhanced Multi-Modal Geometry Problem Solver [11.69164802295844]
視覚的特徴,幾何学的形式言語,自然言語表現を統合した新しいフレームワークを提案する。
本稿では,新しい合成データ手法を提案し,形式的および自然言語のキャプションを付加した大規模幾何データセットSynthGeo228Kを提案する。
我々のフレームワークは,MLLMの幾何学図処理能力を改善し,フォーマルなgeo7kデータセット上のオープンなタスクに応用範囲を広げる。
論文 参考訳(メタデータ) (2024-09-06T12:11:06Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Multi-View Empowered Structural Graph Wordification for Language Models [12.22063024099311]
本稿では,LLM-graphアライメントのためのエンドツーエンドのモダリティアライメントフレームワークについて紹介する。
提案手法は LLM とのトークンレベルアライメントを容易にするために設計されており,グラフの内在的' を理解可能な自然言語に効果的に翻訳することができる。
我々のフレームワークは、LLMとGNN間のトークンレベルのアライメントを実現するための、有望な試みである、ある視覚的解釈可能性、効率、堅牢性を保証する。
論文 参考訳(メタデータ) (2024-06-19T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。