論文の概要: GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving
- arxiv url: http://arxiv.org/abs/2602.08524v1
- Date: Mon, 09 Feb 2026 11:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.18878
- Title: GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving
- Title(参考訳): GeoFocus:マルチモーダル幾何問題解決のための効率的なグローバル・ローカル知覚
- Authors: Linger Deng, Yuliang Liu, Wenwen Yu, Zujia Zhang, Jianzhong Ju, Zhenbo Luo, Xiang Bai,
- Abstract要約: GeoFocusは、2つのコアモジュールからなる新しいフレームワークである。
GeoFocusは、主要な特殊モデルよりも4.7%の精度向上を実現している。
多様な視覚条件下でのMATHVERSEの強靭性を示す。
- 参考スコア(独自算出の注目度): 55.14836667214487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Geometry problem-solving remains a significant challenge for Large Multimodal Models (LMMs), requiring not only global shape recognition but also attention to intricate local relationships related to geometric theory. To address this, we propose GeoFocus, a novel framework comprising two core modules. 1) Critical Local Perceptor, which automatically identifies and emphasizes critical local structure (e.g., angles, parallel lines, comparative distances) through thirteen theory-based perception templates, boosting critical local feature coverage by 61% compared to previous methods. 2) VertexLang, a compact topology formal language, encodes global figures through vertex coordinates and connectivity relations. By replacing bulky code-based encodings, VertexLang reduces global perception training time by 20% while improving topology recognition accuracy. When evaluated in Geo3K, GeoQA, and FormalGeo7K, GeoFocus achieves a 4.7% accuracy improvement over leading specialized models and demonstrates superior robustness in MATHVERSE under diverse visual conditions. Project Page -- https://github.com/dle666/GeoFocus
- Abstract(参考訳): 幾何学的問題解決はLMM(Large Multimodal Models)にとって重要な課題であり、大域的な形状認識だけでなく、幾何学理論に関連する複雑な局所的関係にも注意が必要である。
そこで本研究では,2つのコアモジュールからなる新しいフレームワークであるGeoFocusを提案する。
1)13の理論に基づく知覚テンプレートを通じて、臨界局所構造(例えば、角度、平行線、距離)を自動的に識別し、強調する臨界局所知覚器は、従来の方法と比較して重要な局所的特徴カバレッジを61%向上させる。
2) コンパクトなトポロジ形式言語であるVertexLangは頂点座標と接続関係を通じてグローバルな数値を符号化する。
大量のコードベースのエンコーディングを置き換えることで、VertexLangは、トポロジ認識精度を改善しながら、グローバルな認識トレーニング時間を20%削減する。
Geo3K、GeoQA、FormalGeo7Kで評価されると、GeoFocusは主要な特殊モデルよりも4.7%精度が向上し、多様な視覚条件下でのMATHVERSEの優れた堅牢性を示す。
Project Page -- https://github.com/dle666/GeoFocus
関連論文リスト
- Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - GeoEvolve: Automating Geospatial Model Discovery via Multi-Agent Large Language Models [49.257706111340134]
進化的探索と地理空間的ドメイン知識を結合した多エージェントLLMフレームワークであるGeoEvolveを紹介する。
本研究では,空間的不確実性と空間的不確実性という2つの基本的・古典的課題について評価する。
空間誤差(RMSE)を13-21%削減し、不確実性推定性能を17%向上させる。
論文 参考訳(メタデータ) (2025-09-25T21:03:57Z) - TrustGeoGen: Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving [106.04001249574786]
TrustGeoGenは、標準的で信頼性の高いベンチマークを確立するために、正式に検証された幾何問題を生成するデータエンジンである。
1)ダイアグラム,テキスト,ステップバイステップのソリューションの生成を同期するマルチモーダルアライメント,2)すべての推論パスがルール準拠であることを保証する形式検証,3)接続思考,ブリッジング,ヒューマンライクな論理ステップとの論理的推論,4)複数のソリューションと自己回帰バックトラックを備えた多種多様な問題を生成できるTextitGeoExploreシリーズアルゴリズム。
論文 参考訳(メタデータ) (2025-04-22T10:45:23Z) - Geolocation with Real Human Gameplay Data: A Large-Scale Dataset and Human-Like Reasoning Framework [59.42946541163632]
3つの重要なコンポーネントを持つ包括的位置決めフレームワークを導入する。
大規模データセットGeoComp、新しい推論手法GeoCoT、評価指標GeoEval。
また,GeoCoTは解釈可能性を高めつつ,位置情報の精度を最大25%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-19T14:21:25Z) - GeoFormer: Learning Point Cloud Completion with Tri-Plane Integrated Transformer [41.26276375114911]
ポイント・クラウド・コンプリートは、正確なグローバル・ジオメトリを復元し、部分的なポイント・クラウドからのきめ細かい局所的な詳細を保存することを目的としている。
従来の手法では、3Dポイントのクラウド座標から直接見えない点を予測したり、自己投影された多視点深度マップを使用するのが一般的である。
ポイントのグローバルな幾何学的構造を同時に拡張し、局所的な詳細を改善するGeoFormerを導入する。
論文 参考訳(メタデータ) (2024-08-13T03:15:36Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Focus on Local: Detecting Lane Marker from Bottom Up via Key Point [10.617793053931964]
本研究では,局所パターンのモデル化とグローバルな構造予測に焦点をあてた新しいレーンマーカー検出ソリューションFOLOLaneを提案する。
具体的には、CNNは2つの異なる頭部を持つ低複雑局所パターンをモデル化し、第1は鍵点の存在を予測し、第2は局所範囲における鍵点の位置を洗練し、同じレーン線の鍵点を相関させる。
論文 参考訳(メタデータ) (2021-05-28T08:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。