論文の概要: LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning
- arxiv url: http://arxiv.org/abs/2603.12166v1
- Date: Thu, 12 Mar 2026 17:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.240773
- Title: LatentGeo: Learnable Auxiliary Constructions in Latent Space for Multimodal Geometric Reasoning
- Title(参考訳): LatentGeo:マルチモーダル幾何推論のための潜在空間における学習可能な補助構造
- Authors: Haiying Xu, Zihan Wang, Song Dai, Zhengxuan Zhang, Kairan Dou, Xuming Hu,
- Abstract要約: 画素レベルのレンダリングや外部エグゼキュータを使わずに、連続潜時視覚表現を学習し、補助幾何学的構成を内部化するフレームワークを提案する。
LatentGeoは幾何学的推論タスク、特に補助的な構成を必要とするタスクでかなりの利益を得ている。
- 参考スコア(独自算出の注目度): 32.39048489202347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in multimodal reasoning, representing auxiliary geometric constructions remains a fundamental challenge for multimodal large language models (MLLMs). Such constructions are absent from the original diagram and must be introduced before theorems apply. Existing approaches predominantly rely on explicit construction paradigms, including text-based geometric specification, visual-token interleaving during reasoning, and tool-augmented geometric execution. However, these methods either fail to faithfully represent complex spatial relationships, incur representation mismatch between discrete symbols and continuous geometric structures, or rely on external capabilities that hinder end-to-end optimization. To address these limitations, we propose LatentGeo, a framework that learns continuous latent visual representations to internalize auxiliary geometric constructions without pixel-level rendering or external executors. We design a three-stage curriculum that progressively aligns and internalizes these latent representations through auxiliary visual supervision, followed by LaGDPO, a latent-aware reinforcement learning procedure that stabilizes latent representations during policy optimization while improving end-task correctness. To systematically evaluate construction-centric representation quality, we introduce GeoAux, a new benchmark targeting visually dependent geometry problems, and conduct experiments on GeoAux and MathVerse. Results show that LatentGeo achieves substantial gains on geometric reasoning tasks, particularly those requiring auxiliary constructions. Extensive analyses and ablation studies further validate the effectiveness of each component in our framework.
- Abstract(参考訳): 近年の多モーダル推論の進歩にもかかわらず、補助的な幾何学的構成を表現することは、多モーダル大言語モデル(MLLM)の根本的な課題である。
このような構成は元の図式から外れており、定理が適用される前に導入されなければならない。
既存のアプローチは主に、テキストベースの幾何仕様、推論中の視覚的なインターリーブ、ツール拡張幾何実行など、明示的な構築パラダイムに依存している。
しかし、これらの手法は複雑な空間関係を忠実に表現できないか、離散記号と連続幾何学構造の間の不正確な表現ミスマッチ、あるいはエンドツーエンドの最適化を妨げる外部能力に依存するかのいずれかである。
これらの制約に対処するため,ピクセルレベルのレンダリングや外部エグゼキュータを使わずに,補助幾何学的構成を内部化するための連続的な潜時視覚表現を学習するフレームワークであるLatentGeoを提案する。
そこで我々は,これら潜伏表現を段階的に調整・内部化する3段階のカリキュラムを設計し,それに続いて遅延対応強化学習手法であるLaGDPO(LaGDPO)を設計した。
構成中心の表現品質を体系的に評価するために,視覚依存型幾何学問題を対象とした新しいベンチマークGeoAuxを導入し,GeoAuxとMathVerseの実験を行った。
結果から,LatentGeoは幾何学的推論タスク,特に補助的な構成を必要とするタスクにおいて,かなりの向上を達成していることがわかった。
大規模分析およびアブレーション研究により,本フレームワークにおける各コンポーネントの有効性がさらに検証された。
関連論文リスト
- GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning [51.63457948949102]
マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
論文 参考訳(メタデータ) (2026-03-11T03:32:12Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - GeoSketch: A Neural-Symbolic Approach to Geometric Multimodal Reasoning with Auxiliary Line Construction and Affine Transformation [28.500787311066563]
GeoSketchは、幾何学的推論をインタラクティブな知覚・推論・アクションループとして再キャストする、ニューラルシンボリックなフレームワークである。
階層的な意思決定、実行可能な視覚行動、象徴的な検証を統一することにより、GeoSketchは静的解釈から動的相互作用へのマルチモーダル推論を前進させる。
論文 参考訳(メタデータ) (2025-09-26T15:12:04Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - Representing Deep Neural Networks Latent Space Geometries with Graphs [38.63434325489782]
ディープラーニング(DL)は多くの機械学習タスクで最先端のパフォーマンスに到達する能力に多くの注目を集めている。
本研究は, 様々な問題に対処するために, これらの潜在測地に関する制約を導入することが可能であることを示す。
論文 参考訳(メタデータ) (2020-11-14T17:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。