論文の概要: GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding
- arxiv url: http://arxiv.org/abs/2512.02715v1
- Date: Tue, 02 Dec 2025 12:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.873557
- Title: GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding
- Title(参考訳): GeoViS: リモートセンシングビジュアルグラウンドのためのジオスパティブル・リワードビジュアルサーチ
- Authors: Peirong Zhang, Yidan Zhang, Luxiao Xu, Jinliang Lin, Zonghao Guo, Fengxiang Wang, Xue Yang, Kaiwen Wei, Lei Wang,
- Abstract要約: リモートセンシング視覚接地のためのプログレッシブ検索・推論フレームワークGeoViSを提案する。
我々はGeoViSが、主要な視覚的グラウンドリング指標を越えて既存の手法を一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 23.253648429114236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models(MLLMs) have led to remarkable progress in visual grounding, enabling fine-grained cross-modal alignment between textual queries and image regions. However, transferring such capabilities to remote sensing imagery remains challenging, as targets are often extremely small within kilometer-scale scenes, and queries typically involve intricate geospatial relations such as relative positions, spatial hierarchies, or contextual dependencies across distant objects. To address these challenges, we propose GeoViS, a Geospatially Rewarded Visual Search framework that reformulates remote sensing visual grounding as a progressive search-and-reasoning process. Rather than directly predicting the target location in a single step, GeoViS actively explores the global image through a tree-structured sequence of visual cues, integrating multimodal perception, spatial reasoning, and reward-guided exploration to refine geospatial hypotheses iteratively. This design enables the model to detect subtle small-scale targets while maintaining holistic scene awareness. Extensive experiments on five remote sensing grounding benchmarks demonstrate that GeoViS achieves precise geospatial understanding and consistently surpasses existing methods across key visual grounding metrics, highlighting its strong cross-domain generalization and interpretability.
- Abstract(参考訳): 近年のMLLM(Multimodal large language model)の進歩は、視覚的グラウンドニングの顕著な進歩をもたらし、テキストクエリと画像領域間の微粒なクロスモーダルアライメントを実現している。
しかし、そのような機能をリモートセンシング画像に転送することは、多くの場合、キロスケールのシーンでは非常に小さく、クエリは通常、相対的な位置、空間的階層、または遠く離れた物体間のコンテキスト依存性のような複雑な地理空間関係を含むため、依然として困難である。
これらの課題に対処するため,GeoViSを提案する。Geospatially Rewarded Visual Searchフレームワークは,遠隔センシングによる視覚的接地をプログレッシブな検索・推論プロセスとして再構成する。
単一のステップで目標位置を直接予測するのではなく、GeoViSは木構造された視覚的手がかりのシーケンスを通して地球画像を積極的に探索し、マルチモーダル認識、空間的推論、報酬誘導探索を統合して、地理的仮説を反復的に洗練する。
この設計により、全体的シーン認識を維持しながら微妙に小さなターゲットを検出することができる。
5つのリモートセンシング基盤ベンチマークに関する大規模な実験は、GeoViSが正確な地理空間的理解を達成し、主要な視覚的接地指標を越えて既存の手法を一貫して超越していることを示し、その強いクロスドメインの一般化と解釈可能性を強調している。
関連論文リスト
- GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization [53.080882980294795]
エージェント視覚推論に関する最近の研究は、深いマルチモーダル理解を可能にするが、主に画像操作ツールに焦点を当てている。
そこで本研究では,視覚的グラウンディングだけでなく,仮説の検証や修正のためにWeb検索も必要とするジオローカライゼーションタスクを再考する。
既存のジオローカライゼーションベンチマークは、高解像度画像の必要性と深部エージェント推論の局所化課題を満たすことができないため、GeoBenchをキュレートする。
推論ループ内にツールの実行をシームレスに統合するエージェントモデルであるGeoVistaを提案し,興味のある領域を拡大するイメージズームインツールと関連する領域を検索するWeb検索ツールを提案する。
論文 参考訳(メタデータ) (2025-11-19T18:59:22Z) - GeoExplorer: Active Geo-localization with Curiosity-Driven Exploration [24.01750902074338]
アクティブジオローカライゼーション(Active Geo-localization, AGL)は、事前に定義された検索領域内のゴールをローカライズするタスクである。
現在の手法は距離に基づく報酬を伴う目標獲得強化学習問題としてAGLにアプローチしている。
固有報酬による好奇心駆動探索を取り入れたAGLエージェントGeoExplorerを提案する。
論文 参考訳(メタデータ) (2025-07-31T20:23:25Z) - GAIR: Improving Multimodal Geo-Foundation Model with Geo-Aligned Implicit Representations [5.439918212297177]
マルチモーダルなGeoFM開発における主要な課題は、モダリティ間の地理空間関係を明示的にモデル化することである。
オーバヘッドRSデータ,ストリートビュー画像,それらの位置情報メタデータを統合した,新しいマルチモーダルなGeoFMアーキテクチャであるGAIRを提案する。
GAIRは、RS画像ベース、SV画像ベース、位置埋め込みベースベンチマークにまたがる10の空間的タスクにまたがって評価される。
論文 参考訳(メタデータ) (2025-03-20T19:59:39Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - CurriculumLoc: Enhancing Cross-Domain Geolocalization through
Multi-Stage Refinement [11.108860387261508]
ビジュアルジオローカライゼーションはコスト効率が高くスケーラブルなタスクであり、未知の場所で撮影された1つ以上のクエリイメージとジオタグ付き参照イメージのセットをマッチングする。
我々は,グローバルな意味認識と局所的幾何学的検証を備えたキーポイント検出と記述法であるCurriculumLocを開発した。
我々は、ALTOで62.6%と94.5%の新しいハイリコール@1スコアをそれぞれ2つの異なる距離で達成した。
論文 参考訳(メタデータ) (2023-11-20T08:40:01Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。