Fugu-MT 論文翻訳(概要): Zero-shot Vision-Language Reranking for Cross-View Geolocalization

論文の概要: Zero-shot Vision-Language Reranking for Cross-View Geolocalization

arxiv url: http://arxiv.org/abs/2603.27251v1
Date: Sat, 28 Mar 2026 11:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:44.867665
Title: Zero-shot Vision-Language Reranking for Cross-View Geolocalization
Title（参考訳）: クロスビュージオローカライゼーションのためのゼロショットビジョンランゲージの再評価
Authors: Yunus Talha Erzurumlu, John E. Anderson, William J. Shuart, Charles Toth, Alper Yilmaz,
Abstract要約: クロスビューなジオローカライズシステムは、しばしば1つのベストマッチを特定するのに失敗する(Top-1の精度が低い)。本研究は、このギャップに対処するために、ゼロショットビジョンランゲージモデル(VLM)をリランカーとして使用することを検討する。
参考スコア（独自算出の注目度）: 3.7515646463759698
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cross-view geolocalization (CVGL) systems, while effective at retrieving a list of relevant candidates (high Recall@k), often fail to identify the single best match (low Top-1 accuracy). This work investigates the use of zero-shot Vision-Language Models (VLMs) as rerankers to address this gap. We propose a two-stage framework: state-of-the-art (SOTA) retrieval followed by VLM reranking. We systematically compare two strategies: (1) Pointwise (scoring candidates individually) and (2) Pairwise (comparing candidates relatively). Experiments on the VIGOR dataset show a clear divergence: all pointwise methods cause a catastrophic drop in performance or no change at all. In contrast, a pairwise comparison strategy using LLaVA improves Top-1 accuracy over the strong retrieval baseline. Our analysis concludes that, these VLMs are poorly calibrated for absolute relevance scoring but are effective at fine-grained relative visual judgment, making pairwise reranking a promising direction for enhancing CVGL precision.
Abstract（参考訳）: クロスビュージオローカライゼーション(CVGL)システムは、関連する候補のリスト(High Recall@k)を取得するのに効果的であるが、単一のベストマッチ(Top-1精度の低い)を特定するのに失敗することが多い。本研究は、このギャップに対処するために、ゼロショットビジョンランゲージモデル(VLM)をリランカーとして使用することを検討する。我々は2段階のフレームワークを提案する: State-of-the-art(SOTA)検索とVLM再分類を行う。本研究では,(1)ポイントワイド(個別の候補)と(2)ペアワイド(相対的な候補)の2つの戦略を体系的に比較した。 VIGORデータセットの実験では、明確な違いが示されている。すべてのポイントワイズメソッドは、パフォーマンスが壊滅的に低下するか、まったく変化しない。対照的に、LLaVAを用いたペアワイズ比較戦略では、強い検索基準よりもTop-1精度が向上する。解析の結果,これらのVLMは絶対的関連度評価には適さないが,相対的視覚判断の微粒化に有効であり,CVGL精度を高めるための有望な方向を両立させることができることがわかった。

関連論文リスト

GLEAM: Learning to Match and Explain in Cross-View Geo-Localization [66.11208984986813]
CVGL(Cross-View Geo-Localization)は、同じ地理的位置の異なる視点から撮影された画像間の対応を識別することに焦点を当てている。 GLEAM-Cは、UAV画像、ストリートマップ、パノラマ画像、地上写真を含む複数のビューとモダリティを衛星画像のみに合わせる基本CVGLモデルである。従来のCVGL手法では解釈可能性の欠如に対処するため,クロスビュー対応予測と説明可能な推論を組み合わせたGLEAM-Xを提案する。
論文参考訳（メタデータ） (2025-09-09T07:14:31Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
AANet: Aggregation and Alignment Network with Semi-hard Positive Sample Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文参考訳（メタデータ） (2023-10-08T14:46:11Z)
AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。 AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文参考訳（メタデータ） (2023-07-28T08:05:36Z)
Provable Stochastic Optimization for Global Contrastive Learning: Small Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。 SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-24T22:16:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。