論文の概要: Enhancing Geo-localization for Crowdsourced Flood Imagery via LLM-Guided Attention
- arxiv url: http://arxiv.org/abs/2512.11811v2
- Date: Tue, 16 Dec 2025 07:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-21 14:22:08.6835
- Title: Enhancing Geo-localization for Crowdsourced Flood Imagery via LLM-Guided Attention
- Title(参考訳): LLM誘導アテンションによるクラウドソースフラッド画像のジオローカライゼーションの強化
- Authors: Fengyi Xu, Jun Ma, Waishan Qiu, Cui Guo, Jack C. P. Cheng,
- Abstract要約: VPR-AttLLMは、大規模言語モデルの意味論的推論と地理知識を確立された視覚的場所認識パイプラインに統合する、モデルに依存しないフレームワークである。
モデルの再トレーニングや追加データを必要とすることなく、検索性能を向上させる。
都市認識理論から注意機構に原則を組み込むことで、VPR-AttLLMは現代のVPRアーキテクチャで人間のような空間推論を橋渡しする。
- 参考スコア(独自算出の注目度): 2.2652447006896352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowdsourced street-view imagery from social media provides real-time visual evidence of urban flooding and other crisis events, yet it often lacks reliable geographic metadata for emergency response. Existing image geo-localization approaches, also known as Visual Place Recognition (VPR) models, exhibit substantial performance degradation when applied to such imagery due to visual distortions and domain shifts in cross-source scenarios. This paper presents VPR-AttLLM, a model-agnostic framework that integrates the semantic reasoning and geo-knowledge of Large Language Models (LLMs) into established VPR pipelines through attention-guided descriptor enhancement. By leveraging LLMs to identify location-informative regions within the city context and suppress visual noise, VPR-AttLLM improves retrieval performance without requiring model retraining or additional data. Comprehensive evaluations are conducted on extended benchmarks including SF-XL enriched with real social-media flood images, synthetic flooding scenarios over established query sets and Mapillary photos, and a new HK-URBAN dataset capturing morphologically distinct cityscapes. Integrating VPR-AttLLM with three state-of-the-art VPR models-CosPlace, EigenPlaces, and SALAD-consistently improves recall performance, yielding relative gains typically between 1-3% and reaching up to 8% on the most challenging real flood imagery. Beyond measurable gains in retrieval accuracy, this study establishes a generalizable paradigm for LLM-guided multimodal fusion in visual retrieval systems. By embedding principles from urban perception theory into attention mechanisms, VPR-AttLLM bridges human-like spatial reasoning with modern VPR architectures. Its plug-and-play design, strong cross-source robustness, and interpretability highlight its potential for scalable urban monitoring and rapid geo-localization of crowdsourced crisis imagery.
- Abstract(参考訳): ソーシャルメディアからクラウドソーシングされたストリートビュー画像は、都市洪水やその他の危機イベントのリアルタイムな視覚的証拠を提供するが、緊急対応のための信頼性の高いメタデータを欠いていることが多い。
既存の画像ジオローカライゼーションアプローチ(Visual Place Recognition (VPR)モデルとも呼ばれる)は、ビジュアル歪みやクロスソースシナリオにおけるドメインシフトによって、そのような画像に適用された場合、大幅なパフォーマンス低下を示す。
本稿では,Large Language Models(LLM)の意味的推論とジオ知識を,注意誘導記述子拡張を通じて確立されたVPRパイプラインに統合する,モデルに依存しないフレームワークであるVPR-AttLLMを提案する。
VPR-AttLLMは、LLMを活用して、都市環境内の位置不変領域を特定し、視覚ノイズを抑制することにより、モデル再トレーニングや追加データを必要とすることなく、検索性能を向上させる。
実際のソーシャル・メディア・フラッド・イメージに富んだSF-XL、確立されたクエリ・セットとMapillary写真に対する合成洪水シナリオ、形態学的に異なる都市景観をキャプチャする新しいHK-URBANデータセットなど、拡張ベンチマークで包括的な評価が行われた。
VPR-AttLLMと最先端の3つのVPRモデル(CosPlace、EigenPlaces、SALAD)を統合することでリコール性能が継続的に向上し、通常1~3%の相対的なゲインが得られ、最も困難な実際の洪水画像では最大8%に達する。
本研究では,視覚検索システムにおけるLLM誘導多モード融合のための一般化可能なパラダイムを確立する。
都市認識理論から注意機構に原則を組み込むことで、VPR-AttLLMは現代のVPRアーキテクチャで人間のような空間推論を橋渡しする。
そのプラグ・アンド・プレイデザイン、強力なクロスソースの堅牢性、解釈性は、スケーラブルな都市モニタリングとクラウドソースされた危機イメージの迅速な地理的ローカライゼーションの可能性を浮き彫りにしている。
関連論文リスト
- Annotation-Free Open-Vocabulary Segmentation for Remote-Sensing Images [51.74614065919118]
本稿では,アノテーションのないRS画像のオープン語彙セグメンテーションのための最初のフレームワークであるSegEarth-OVを紹介する。
粗い特徴から高分解能空間の詳細を頑健に復元する普遍的なアップサンプラーであるSimFeatUpを提案する。
また、パッチ機能から固有のグローバルコンテキストを抽出するための、シンプルで効果的なグローバルバイアス緩和操作も提示する。
論文 参考訳(メタデータ) (2025-08-25T14:22:57Z) - From Pixels to Places: A Systematic Benchmark for Evaluating Image Geolocalization Ability in Large Language Models [14.178064117544082]
画像のジオローカライゼーションは、危機対応、デジタル法医学、位置に基づくインテリジェンスなどの応用において重要である。
大規模言語モデル(LLM)の最近の進歩は、視覚的推論の新しい機会を提供する。
我々は, 精度, 距離誤差, 地理空間バイアス, 推論過程を体系的に評価する, imageO-Bench というベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-03T06:04:33Z) - Recognition through Reasoning: Reinforcing Image Geo-localization with Large Vision-Language Models [47.98900725310249]
新しいパイプラインは、多様なソーシャルメディアイメージを使用して推論指向のジオローカライゼーションデータセットMP16-Reasonを構築する。
GLOBEには、ローカライズビリティアセスメント、ビジュアルキュー推論、位置情報の精度を共同で向上するタスク固有の報酬が組み込まれている。
その結果,GLOBEはジオローカライゼーションタスクにおいて,最先端のオープンソースLVLMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T16:07:58Z) - Focus on Local: Finding Reliable Discriminative Regions for Visual Place Recognition [26.27331683733832]
視覚的位置認識(VPR)は、ジオタグ付き画像のデータベースを参照することにより、クエリ画像の位置を予測することを目的としている。
既存の手法では、識別領域の正確なモデリングと完全な利用が欠如している。
本稿では、画像検索とVPRにおける再ランク付けを同時に行うために、FoL(FoL)アプローチを提案する。
論文 参考訳(メタデータ) (2025-04-14T05:04:51Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Collaborative Visual Place Recognition through Federated Learning [5.06570397863116]
視覚的位置認識(VPR)は、画像の位置を検索問題として扱うことで、画像の位置を推定することを目的としている。
VPRはジオタグ付き画像のデータベースを使用し、ディープニューラルネットワークを活用して、各画像からデクリプタと呼ばれるグローバル表現を抽出する。
本研究は,フェデレートラーニング(FL)のレンズを通してVPRの課題を再考し,この適応に関連するいくつかの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-04-20T08:48:37Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。