論文の概要: Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.14674v1
- Date: Tue, 17 Jun 2025 16:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.562932
- Title: Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models
- Title(参考訳): 推論による認識:大規模視覚言語モデルによる画像のジオローカライゼーションの強化
- Authors: Ling Li, Yao Zhou, Yuxuan Liang, Fugee Tsung, Jiaheng Wei,
- Abstract要約: 新しいパイプラインは、さまざまなソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
そこで我々はGLOBE, グループ関連ポリシー最適化, 可視性評価, ビジュアル・キュー推論の最適化について紹介する。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 27.848962405476108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods for image geo-localization have typically treated the task as either classification or retrieval, often relying on black-box decisions that lack interpretability. The rise of large vision-language models (LVLMs) has enabled a rethinking of geo-localization as a reasoning-driven task grounded in visual cues. However, two major challenges persist. On the data side, existing reasoning-focused datasets are primarily based on street-view imagery, offering limited scene diversity and constrained viewpoints. On the modeling side, current approaches predominantly rely on supervised fine-tuning, which yields only marginal improvements in reasoning capabilities. To address these challenges, we propose a novel pipeline that constructs a reasoning-oriented geo-localization dataset, MP16-Reason, using diverse social media images. We introduce GLOBE, Group-relative policy optimization for Locatability assessment and Optimized visual-clue reasoning, yielding Bi-objective geo-Enhancement for the VLM in recognition and reasoning. GLOBE incorporates task-specific rewards that jointly enhance locatability assessment, visual clue reasoning, and geolocation accuracy. Both qualitative and quantitative results demonstrate that GLOBE outperforms state-of-the-art open-source LVLMs on geo-localization tasks, particularly in diverse visual scenes, while also generating more insightful and interpretable reasoning trajectories.
- Abstract(参考訳): 画像ジオローカライゼーションの従来の手法では、通常、タスクを分類または検索のどちらかとして扱い、多くの場合、解釈可能性に欠けるブラックボックスの決定に依存していた。
大規模視覚言語モデル(LVLM)の台頭は、視覚的手がかりに基づく推論駆動型タスクとして、地理的ローカライゼーションの再考を可能にした。
しかし、2つの大きな課題が続いている。
データ側では、既存の推論に焦点を当てたデータセットは、主にストリートビューの画像に基づいており、シーンの多様性と制約された視点を提供する。
モデリングの面では、現在のアプローチは主に教師付き微調整に依存しており、推論能力の限界的な改善しか得られない。
これらの課題に対処するために,多様なソーシャルメディア画像を用いた推論指向のジオローカライゼーションデータセットMP16-Reasonを構築するパイプラインを提案する。
本稿では, GLOBE, Group-relative Policy Optimization for Locatability AssessmentとOptimized visual-clue reasoningを導入し, VLMの認識と推論において, Bi-objective geo-Enhancementを提供する。
GLOBEには、ロカタビリティアセスメント、視覚的手がかり推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
定性的かつ定量的な結果は、GLOBEが地理的局所化タスク、特に多様な視覚シーンにおいて、最先端のオープンソースLVLMよりも優れており、またより洞察に富み、解釈可能な推論軌道を生成することを示している。
関連論文リスト
- GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains [11.704082783192467]
Geo Reason Enhancement (GRE) Suiteは、解釈可能な位置推論のための構造化推論チェーンを備えたビジュアル言語モデルを拡張する新しいフレームワークである。
まず、GRE30Kという、きめ細かい視覚的・文脈的分析を容易にするために設計された高品質なジオローカライゼーション推論データセットを紹介する。
次に,シーン属性,局所的詳細,意味的特徴を段階的に推測する多段階推論手法を用いて,GREモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T13:48:57Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - GeoReasoner: Geo-localization with Reasoning in Street Views using a Large Vision-Language Model [6.135404769437841]
本研究は,大規模視覚言語モデル(LVLM)を用いた新しいパラダイムによる地理的局在化の課題に取り組む。
既存のストリートビューデータセットには、視覚的な手がかりがなく、推論に理由がない多くの低品質画像が含まれていることが多い。
データ品質の問題に対処するため、我々はCLIPベースのネットワークを考案し、街路ビュー画像がどこにあるかを定量化する。
推論の精度を高めるために,実地局所化ゲームから得られた外部知識を統合し,価値ある人間の推論能力を活用する。
論文 参考訳(メタデータ) (2024-06-03T18:08:56Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。