論文の概要: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization
- arxiv url: http://arxiv.org/abs/2502.11381v1
- Date: Mon, 17 Feb 2025 02:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:45.039794
- Title: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization
- Title(参考訳): ラベルなしラベル付きデータ:UAV-Viewジオローカライゼーションのためのエンド・ツー・エンドセルフ・スーパービジョン・パラダイム
- Authors: Zhongwei Chen, Zhao-Xu Yang, Hai-Jun Rong,
- Abstract要約: UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。
本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
- 参考スコア(独自算出の注目度): 2.733505168507872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: UAV-View Geo-Localization (UVGL) aims to ascertain the precise location of a UAV by retrieving the most similar GPS-tagged satellite image. However, existing methods predominantly rely on supervised learning paradigms that necessitate annotated paired data for training, which incurs substantial annotation costs and impedes large-scale deployment. To overcome this limitation, we propose the Dynamic Memory-Driven and Neighborhood Information Learning (DMNIL) network, a lightweight end-to-end self-supervised framework for UAV-view geo-localization. The DMNIL framework utilizes a dual-path clustering-based contrastive learning architecture as its baseline to model intra-view structural relationships, enhancing feature consistency and discriminability. Additionally, a dynamic memory-driven hierarchical learning module is proposed to progressively mine local and global information, reinforcing multi-level feature associations to improve model robustness. To bridge the domain gap between UAV and satellite views, we design an information-consistent evolutionary learning mechanism that systematically explores latent correlations within intra-view neighborhoods and across cross-view domains, ultimately constructing a unified cross-view feature representation space. Extensive experiments on three benchmarks (University-1652, SUES-200, and DenseUAV) demonstrate that DMNIL achieves competitive performance against state-of-the-art supervised methods while maintaining computational efficiency. Notably, this superiority is attained without relying on paired training data, underscoring the framework's practicality for real-world deployment. Codes will be released soon.
- Abstract(参考訳): UAV-View Geo-Localization (UVGL)は、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。
しかし、既存の手法は主に、注釈付きペアデータを必要とする教師付き学習パラダイムに依存しており、これはかなりのアノテーションコストを発生させ、大規模なデプロイメントを妨げる。
この制限を克服するために、UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークである動的メモリ駆動・周辺情報学習(DMNIL)ネットワークを提案する。
DMNILフレームワークは、デュアルパスクラスタリングに基づくコントラスト学習アーキテクチャをベースラインとして、ビュー内構造関係をモデル化し、機能の一貫性と識別性を向上させる。
さらに,局所的およびグローバルな情報を段階的にマイニングするために,動的メモリ駆動型階層学習モジュールを提案する。
UAVと衛星視の領域ギャップを埋めるため、我々は、視界内および視界横断領域間の潜伏相関を体系的に探索する情報一貫性進化学習機構を設計し、最終的には統合された視界横断的特徴表現空間を構築する。
3つのベンチマーク(University-1652、SUES-200、DenseUAV)の大規模な実験は、DMNILが計算効率を維持しながら最先端の教師付き手法と競合する性能を発揮することを示した。
特に、この優位性はペアのトレーニングデータに頼ることなく達成されており、現実世界のデプロイメントにおけるフレームワークの実用性を強調している。
コードも間もなくリリースされる予定だ。
関連論文リスト
- Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Precise GPS-Denied UAV Self-Positioning via Context-Enhanced Cross-View Geo-Localization [10.429391988135345]
本研究では,UAV自己配置タスクに特化して設計されたCEUSPのコンテキスト拡張手法を提案する。
CEUSPは、動的サンプリング戦略(DSS)を統合して、最適な負のサンプルを効率的に選択する一方、RubikのCube Attention(RCA)モジュールは、Context-Aware Channel Integration(CACI)モジュールと組み合わせて、特徴表現と識別を強化する。
本手法は,都市密集環境に特化して設計されたDenseUAVデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-02-17T03:49:18Z) - Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。
既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。
拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-26T09:30:26Z) - SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。
本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文 参考訳(メタデータ) (2024-12-20T05:20:10Z) - MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。
グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。
複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-02T18:57:53Z) - Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。
座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。
新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:56:21Z) - Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,データ共有を必要とせず,エージェント間で集中マップモデルを共同で学習する手法を提案する。
我々のアプローチは暗黙のニューラルマッピングを利用して、パシモニアスで適応可能な表現を生成する。
火星の地形と氷河のデータセットを用いたフェデレーションマッピング手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-02T20:32:32Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Clustering augmented Self-Supervised Learning: Anapplication to Land
Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。
社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-08-16T19:35:43Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。