論文の概要: Learning Cross-view Visual Geo-localization without Ground Truth
- arxiv url: http://arxiv.org/abs/2403.12702v1
- Date: Tue, 19 Mar 2024 13:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:13:49.817254
- Title: Learning Cross-view Visual Geo-localization without Ground Truth
- Title(参考訳): 地中真理を伴わない視覚的地平分布のクロスビュー学習
- Authors: Haoyuan Li, Chang Xu, Wen Yang, Huai Yu, Gui-Song Xia,
- Abstract要約: CVGL(Cross-View Geo-Localization)は、クエリ画像の地理的位置を対応するGPSタグ付き参照画像とマッチングすることで決定する。
現在の最先端の手法は、ラベル付きペア画像によるトレーニングモデルに依存しており、かなりのアノテーションコストとトレーニングの負担が伴う。
CVGLにおける凍結モデルの適用について,真理ペアラベルを必要とせずに検討する。
- 参考スコア(独自算出の注目度): 48.51859322439286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-View Geo-Localization (CVGL) involves determining the geographical location of a query image by matching it with a corresponding GPS-tagged reference image. Current state-of-the-art methods predominantly rely on training models with labeled paired images, incurring substantial annotation costs and training burdens. In this study, we investigate the adaptation of frozen models for CVGL without requiring ground truth pair labels. We observe that training on unlabeled cross-view images presents significant challenges, including the need to establish relationships within unlabeled data and reconcile view discrepancies between uncertain queries and references. To address these challenges, we propose a self-supervised learning framework to train a learnable adapter for a frozen Foundation Model (FM). This adapter is designed to map feature distributions from diverse views into a uniform space using unlabeled data exclusively. To establish relationships within unlabeled data, we introduce an Expectation-Maximization-based Pseudo-labeling module, which iteratively estimates associations between cross-view features and optimizes the adapter. To maintain the robustness of the FM's representation, we incorporate an information consistency module with a reconstruction loss, ensuring that adapted features retain strong discriminative ability across views. Experimental results demonstrate that our proposed method achieves significant improvements over vanilla FMs and competitive accuracy compared to supervised methods, while necessitating fewer training parameters and relying solely on unlabeled data. Evaluation of our adaptation for task-specific models further highlights its broad applicability.
- Abstract(参考訳): CVGL(Cross-View Geo-Localization)は、クエリ画像の地理的位置を対応するGPSタグ付き参照画像とマッチングすることで決定する。
現在の最先端の手法は、主にラベル付きペア画像によるトレーニングモデルに依存しており、かなりのアノテーションコストとトレーニングの負担が伴う。
本研究では,基本真理ペアラベルを必要とせずに,CVGLの凍結モデルの適用について検討する。
ラベルなしのクロスビュー画像のトレーニングは、ラベルなしデータ内の関係を確立することや、不確実なクエリと参照の間のビューの相違を解消することなど、大きな課題を呈する。
これらの課題に対処するために、フリーズ財団モデル(FM)の学習可能なアダプタを学習するための自己教師型学習フレームワークを提案する。
このアダプタは、様々なビューからの特徴分布をラベルのないデータのみを使用して一様空間にマッピングするように設計されている。
ラベルなしデータ内の関係を確立するために,期待最大化に基づくPseudo-labelingモジュールを導入し,相互参照機能間の関連を反復的に推定し,アダプタを最適化する。
FMの表現のロバスト性を維持するため,情報一貫性モジュールを再構成損失に組み込むことで,適応された特徴がビュー全体にわたって強力な識別能力を維持することを保証する。
実験の結果,提案手法は教師付き手法に比べてバニラFMよりも大幅に改善され,訓練パラメータは少なく,ラベルなしデータのみに依存していることがわかった。
タスク固有モデルへの適応性の評価は、その適用性をさらに強調する。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Robust Pseudo-label Learning with Neighbor Relation for Unsupervised Visible-Infrared Person Re-Identification [33.50249784731248]
UVI-ReID (unsupervised Visible-Infrared Person Re-identification) は、視覚的および赤外線モダリティにまたがる歩行者像をアノテーションなしでマッチングすることを目的としている。
近年、擬似ラベル法はUSVI-ReIDにおいて主流となっているが、擬似ラベル法固有のノイズは大きな障害となる。
我々は,雑音の多い擬似ラベルを補正するRPNRフレームワークを設計する。
SYSU-MM01とRegDBの2つの広く知られているベンチマークで実施された総合的な実験は、RPNRが現在最先端のGURを平均で上回っていることを実証している。
論文 参考訳(メタデータ) (2024-05-09T08:17:06Z) - Unleashing Unlabeled Data: A Paradigm for Cross-View Geo-Localization [28.941724648519102]
本稿では,大規模クロスビュー・ジオローカライゼーション(CVGL)におけるラベルなしデータの有効利用について検討する。
CVGLの一般的なアプローチは、地上衛星画像ペアに依存し、ラベル駆動型教師付きトレーニングを採用する。
本稿では,初期擬似ラベルを検索するためのモデルを案内するクロスビュープロジェクションを含む教師なしフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T07:48:35Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Unsupervised Continual Semantic Adaptation through Neural Rendering [32.099350613956716]
セマンティックセグメンテーションの課題に対する連続的マルチシーン適応について検討する。
本稿では,セグメンテーションモデルの予測を融合させることで,シーン毎にセマンティック・NeRFネットワークを訓練する。
我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-11-25T09:31:41Z) - Adaptive Graph-Based Feature Normalization for Facial Expression
Recognition [1.2246649738388389]
データ不確実性から表情認識モデルを保護するために,適応グラフに基づく特徴正規化(AGFN)手法を提案する。
我々の手法は、ベンチマークデータセットで91.84%、91.11%の精度で最先端の作業より優れています。
論文 参考訳(メタデータ) (2022-07-22T14:57:56Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Information Symmetry Matters: A Modal-Alternating Propagation Network
for Few-Shot Learning [118.45388912229494]
未ラベルサンプルの欠落した意味情報を補うために,モーダル代替伝搬ネットワーク (MAP-Net) を提案する。
我々は,情報伝達がより有益になるように,セマンティクスを介して視覚的関係ベクトルを誘導するリレーガイダンス(RG)戦略を設計する。
提案手法は有望な性能を達成し,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-09-03T03:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。