論文の概要: Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2601.00388v2
- Date: Mon, 05 Jan 2026 18:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.832794
- Title: Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach
- Title(参考訳): ジオローカライゼーションのための視覚言語推論:強化学習アプローチ
- Authors: Biao Wu, Meng Fang, Ling Chen, Ke Xu, Tao Cheng, Jun Wang,
- Abstract要約: 提案するGeo-Rは,既存の接地トラス座標から構造的推論経路を明らかにする,検索不要なフレームワークである。
本稿では,ルールに基づく階層的推論パラダイムである領域の連鎖を提案する。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
- 参考スコア(独自算出の注目度): 41.001581773172695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models have opened up new possibilities for reasoning-driven image geolocalization. However, existing approaches often rely on synthetic reasoning annotations or external image retrieval, which can limit interpretability and generalizability. In this paper, we present Geo-R, a retrieval-free framework that uncovers structured reasoning paths from existing ground-truth coordinates and optimizes geolocation accuracy via reinforcement learning. We propose the Chain of Region, a rule-based hierarchical reasoning paradigm that generates precise, interpretable supervision by mapping GPS coordinates to geographic entities (e.g., country, province, city) without relying on model-generated or synthetic labels. Building on this, we introduce a lightweight reinforcement learning strategy with coordinate-aligned rewards based on Haversine distance, enabling the model to refine predictions through spatially meaningful feedback. Our approach bridges structured geographic reasoning with direct spatial supervision, yielding improved localization accuracy, stronger generalization, and more transparent inference. Experimental results across multiple benchmarks confirm the effectiveness of Geo-R, establishing a new retrieval-free paradigm for scalable and interpretable image geolocalization. To facilitate further research and ensure reproducibility, both the model and code will be made publicly available.
- Abstract(参考訳): 近年の視覚言語モデルの発展により、推論駆動画像のジオローカライゼーションの新たな可能性が高まっている。
しかし、既存のアプローチは、しばしば合成推論アノテーションや外部画像検索に依存しており、解釈可能性や一般化可能性を制限することができる。
本稿では,既存の地下構造座標から構造的推論経路を探索し,補強学習による位置推定精度を最適化する検索自由フレームワークGeo-Rを提案する。
ルールに基づく階層的推論パラダイムであるChain of Regionを提案し、GPS座標をモデル生成や合成ラベルに頼ることなく、地理的実体(例えば、国、地方、都市)にマッピングすることで、正確に解釈可能な監視を生成する。
これに基づいて,ハバーシン距離に基づく協調報酬を用いた軽量強化学習戦略を導入し,空間的に有意なフィードバックによって予測を洗練させる。
提案手法は,空間的直接監視による地理的推論を構造化し,位置推定精度の向上,一般化の強化,透過的な推論を行う。
複数のベンチマークによる実験結果からGeo-Rの有効性が確認され、スケーラブルで解釈可能な画像ジオローカライゼーションのための新しい検索自由パラダイムが確立された。
さらなる調査と再現性を確保するため、モデルとコードの両方が公開されている。
関連論文リスト
- Towards Interpretable Geo-localization: a Concept-Aware Global Image-GPS Alignment Framework [9.31168320050859]
地理的ローカライゼーションは、全世界で撮影された画像の正確な地理的位置を決定することを含む。
現在の概念に基づく解釈可能性法は、ジオアライメント画像位置埋め込み目標と効果的に一致しない。
我々の知る限り、これは地理的局在化に解釈可能性を導入する最初の試みである。
論文 参考訳(メタデータ) (2025-09-02T03:07:26Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [20.788130896943663]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoGLUE: A GeoGraphic Language Understanding Evaluation Benchmark [56.08664336835741]
我々はGeoGLUEと呼ばれるGeoGraphic Language Understanding Evaluationベンチマークを提案する。
オープンソースの地理資源からデータを収集し、6つの自然言語理解タスクを導入する。
我々は,GeoGLUEベンチマークの有効性と意義を示す一般ベースラインの評価実験と解析を行った。
論文 参考訳(メタデータ) (2023-05-11T03:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。