論文の概要: Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.22703v1
- Date: Thu, 26 Feb 2026 07:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.576841
- Title: Enhancing Geometric Perception in VLMs via Translator-Guided Reinforcement Learning
- Title(参考訳): トランスレータ誘導強化学習によるVLMにおける幾何学的知覚の強化
- Authors: Hao Yu, Shuning Jia, Guanghao Li, Wenhao Jiang, Chun Yuan,
- Abstract要約: 視覚誘導モデル(VLM)は、基本的な図形要素の認識が限られているため、幾何学的推論に苦しむことが多い。
ドメイン固有の言語表現と組み合わせたダイアグラムインスタンスからなるベンチマークであるGeoPerceiveを紹介する。
翻訳者強化学習フレームワークGeoDPOを提案する。
- 参考スコア(独自算出の注目度): 52.075928878249066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) often struggle with geometric reasoning due to their limited perception of fundamental diagram elements. To tackle this challenge, we introduce GeoPerceive, a benchmark comprising diagram instances paired with domain-specific language (DSL) representations, along with an efficient automatic data generation pipeline. This design enables the isolated evaluation of geometric perception independently from reasoning. To exploit the data provided by GeoPerceive for enhancing the geometric perception capabilities of VLMs, we propose GeoDPO, a translator-guided reinforcement learning (RL) framework. GeoDPO employs an NL-to-DSL translator, which is trained on synthetic pairs generated by the data engine of GeoPerceive, to bridge natural language and DSL. This translator facilitates the computation of fine-grained, DSL-level scores, which serve as reward signals in reinforcement learning. We assess GeoDPO on both in-domain and out-of-domain datasets, spanning tasks in geometric perception as well as downstream reasoning. Experimental results demonstrate that, while supervised fine-tuning (SFT) offers only marginal improvements and may even impair performance in out-of-domain scenarios, GeoDPO achieves substantial gains: $+26.5\%$ on in-domain data, $+8.0\%$ on out-of-domain data, and $+39.0\%$ on downstream reasoning tasks. These findings underscore the superior performance and generalization ability of GeoDPO over SFT. All codes are released at https://github.com/Longin-Yu/GeoPerceive to ensure reproducibility.
- Abstract(参考訳): 視覚言語モデル(VLM)は、基本的な図形要素に対する認識が限られているため、幾何学的推論に苦しむことが多い。
この課題に対処するため,ドメイン固有言語(DSL)表現と組み合わせたダイアグラムインスタンスと,効率的な自動データ生成パイプラインを組み合わせたベンチマークであるGeoPerceiveを紹介した。
この設計により、推論とは独立して幾何学的知覚の孤立的な評価が可能となる。
VLMの幾何学的知覚能力を高めるためにGeoPerceiveが提供するデータを活用するために,トランスレータ誘導強化学習(RL)フレームワークであるGeoDPOを提案する。
GeoDPOは、自然言語とDSLをブリッジするために、GeoPerceiveのデータエンジンが生成する合成ペアに基づいて訓練されたNL-to-DSLトランスレータを使用している。
このトランスレータは、強化学習における報酬信号として機能する、きめ細かいDSLレベルのスコアの計算を容易にする。
我々はGeoDPOをドメイン内とドメイン外の両方のデータセットで評価し、幾何学的知覚のタスクと下流の推論にまたがる。
実験の結果、教師付き微調整(SFT)は限界的な改善しか提供せず、ドメイン外のシナリオではパフォーマンスを損なう可能性さえあるが、GeoDPOは、ドメイン内データでは$+26.5\%、ドメイン外データでは$+8.0\%、ダウンストリーム推論タスクでは$+39.0\%という大きな利益を達成している。
これらの結果は,GeoDPOのSFTよりも優れた性能と一般化能力を示している。
すべてのコードは、再現性を確保するためにhttps://github.com/Longin-Yu/GeoPerceiveでリリースされる。
関連論文リスト
- GeoGR: A Generative Retrieval Framework for Spatio-Temporal Aware POI Recommendation [15.009742536403763]
GeoGRはAMAPのようなナビゲーションベースのLBSに適した地理的生成レコメンデーションフレームワークである。
ユーザのコンテキスト状態の変化を認識し,意図を意識したPOIレコメンデーションを可能にする。
複数の実世界のデータセットに対する大規模な実験は、GeoGRが最先端のベースラインよりも優れていることを示している。
論文 参考訳(メタデータ) (2026-02-11T01:48:27Z) - GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - GRASP: Geospatial pixel Reasoning viA Structured Policy learning [16.023628299873494]
GRASPは、マルチモーダルな大規模言語モデルと事前訓練されたセグメンテーションモデルを統合する、構造化されたポリシー学習フレームワークである。
PRIMEは、教師付き微調整を強化学習に置き換える訓練パラダイムであり、推論や接地行動とタスク目標との整合性を改善する。
GRASP-1kは、推論集約的なクエリ、推論トレース、きめ細かいマスクを備えた、完全にドメイン外ベンチマークである。
論文 参考訳(メタデータ) (2025-08-23T18:05:06Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement [20.346145927174373]
Cross-View Geo-Localization (CVGL) は、データベース内のジオタグ付き空中画像とマッチングすることで、地上画像の位置を推定する。
既存の手法は、トレーニングデータとテストデータが完全に異なる領域から取得されるクロスエリア評価において、依然としてパフォーマンスの低下に悩まされている。
視覚的特徴の幾何学的レイアウトを抽出する能力の欠如と,低レベルの細部への過度な適合が原因と考えられる。
本研究では,視覚的特徴間の相関をモデル化する拡張GLEモジュールを用いたGeoDTR+を提案する。
論文 参考訳(メタデータ) (2023-08-18T15:32:01Z) - GNN-Geo: A Graph Neural Network-based Fine-grained IP geolocation
Framework [26.918369615549803]
ルールベースのきめ細かいIP位置情報法は、コンピュータネットワークでは一般化が難しい。
グラフニューラルネットワーク(GNN)を用いたIP位置情報フレームワークGNN-Geoを提案する。
提案したGNN-Geoは、最先端のルールベースおよび学習ベースラインよりも明らかに優れている。
論文 参考訳(メタデータ) (2021-12-18T10:54:31Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。