Fugu-MT 論文翻訳(概要): Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization

論文の概要: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization

arxiv url: http://arxiv.org/abs/2502.11381v2
Date: Tue, 01 Apr 2025 03:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-02 16:16:39.984593
Title: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization
Title（参考訳）: ラベルなしラベル付きデータ:UAV-Viewジオローカライゼーションのためのエンド・ツー・エンドセルフ・スーパービジョン・パラダイム
Authors: Zhongwei Chen, Zhao-Xu Yang, Hai-Jun Rong,
Abstract要約: UAV-View Geo-Localization (UVGL) は、無人航空機(UAV)の正確な位置決めを実現するために、GPSタグ付き衛星画像を取得することを目的としている。既存の手法は、教師あり学習のための事前ペア付きUAVサテライト画像に大きく依存している。本稿では,これらの制限を克服するために,エンドツーエンドの自己教師付きUVGL手法を提案する。
参考スコア（独自算出の注目度）: 2.733505168507872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: UAV-View Geo-Localization (UVGL) aims to achieve accurate localization of unmanned aerial vehicles (UAVs) by retrieving the most relevant GPS-tagged satellite images. However, existing methods heavily rely on pre-paired UAV-satellite images for supervised learning. Such dependency not only incurs high annotation costs but also severely limits scalability and practical deployment in open-world UVGL scenarios. To address these limitations, we propose an end-to-end self-supervised UVGL method. Our method leverages a shallow backbone network to extract initial features, employs clustering to generate pseudo labels, and adopts a dual-path contrastive learning architecture to learn discriminative intra-view representations. Furthermore, our method incorporates two core modules, the dynamic hierarchical memory learning module and the information consistency evolution learning module. The dynamic hierarchical memory learning module combines short-term and long-term memory to enhance intra-view feature consistency and discriminability. Meanwhile, the information consistency evolution learning module leverages a neighborhood-driven dynamic constraint mechanism to systematically capture implicit cross-view semantic correlations, thereby improving cross-view feature alignment. To further stabilize and strengthen the self-supervised training process, a pseudo-label enhancement strategy is introduced, which refines the quality of pseudo supervision. Our method ultimately constructs a unified cross-view feature representation space under self-supervised settings. Extensive experiments on three public benchmark datasets demonstrate that the proposed method consistently outperforms existing self-supervised methods and even surpasses several state-of-the-art supervised methods. Our code is available at https://github.com/ISChenawei/DMNIL.
Abstract（参考訳）: UAV-View Geo-Localization (UVGL) は、無人航空機(UAV)の正確な位置決めを実現するために、GPSタグ付き衛星画像を取得することを目的としている。しかし、既存の手法は教師あり学習のための事前ペア付きUAV衛星画像に大きく依存している。このような依存関係は、高いアノテーションコストを発生させるだけでなく、オープンワールドなUVGLシナリオにおけるスケーラビリティと実践的なデプロイメントを著しく制限します。これらの制約に対処するため,エンド・ツー・エンドの自己監督型UVGL法を提案する。提案手法は浅いバックボーンネットワークを利用して初期特徴を抽出し,クラスタリングを用いて擬似ラベルを生成する。さらに,本手法では,動的階層型メモリ学習モジュールと情報一貫性進化学習モジュールの2つのコアモジュールが組み込まれている。動的階層型メモリ学習モジュールは、短期記憶と長期記憶を組み合わせて、ビュー内特徴の一貫性と識別性を高める。一方、情報整合性進化学習モジュールは、近辺駆動の動的制約機構を活用し、暗黙的なクロスビューセマンティック相関を体系的にキャプチャし、クロスビュー特徴アライメントを改善する。さらに、自己監督訓練プロセスの安定化・強化を図るため、疑似ラベル強化戦略を導入し、疑似監督の質を向上する。提案手法は, 自己教師付き設定の下で, クロスビュー特徴表現空間を統一的に構成する。 3つの公開ベンチマークデータセットに対する大規模な実験は、提案手法が既存の自己監督手法を一貫して上回り、最先端監督手法を超越していることを示している。私たちのコードはhttps://github.com/ISChenawei/DMNILで利用可能です。

関連論文リスト

EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文参考訳（メタデータ） (2025-10-14T16:23:11Z)
DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T17:22:33Z)
DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。一般化を強化するために2つの補完正則化戦略を統合する。さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T00:14:52Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。 IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文参考訳（メタデータ） (2025-04-14T01:51:29Z)
From Limited Labels to Open Domains:An Efficient Learning Method for Drone-view Geo-Localization [12.785100004522059]
従来のドローンビュージオローカライゼーション(DVGL)手法は、ペア化されたトレーニングデータに大きく依存している。 DVGL法は、新しいペアデータを取得し、その後のモデル適応のための再訓練を必要とする。本稿では,限られた監督力を有するクロスドメイン不変知識伝達ネットワーク(CDIKTNet)を提案する。
論文参考訳（メタデータ） (2025-03-10T16:46:43Z)
Precise GPS-Denied UAV Self-Positioning via Context-Enhanced Cross-View Geo-Localization [10.429391988135345]
本研究では,UAV自己配置タスクに特化して設計されたCEUSPのコンテキスト拡張手法を提案する。 CEUSPは、動的サンプリング戦略(DSS)を統合して、最適な負のサンプルを効率的に選択する一方、RubikのCube Attention(RCA)モジュールは、Context-Aware Channel Integration(CACI)モジュールと組み合わせて、特徴表現と識別を強化する。本手法は,都市密集環境に特化して設計されたDenseUAVデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2025-02-17T03:49:18Z)
Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-26T09:30:26Z)
SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文参考訳（メタデータ） (2024-12-20T05:20:10Z)
MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文参考訳（メタデータ） (2024-09-02T18:57:53Z)
Collaborative Static-Dynamic Teaching: A Semi-Supervised Framework for Stripe-Like Space Target Detection [2.9133687889451023]
Stripeのような宇宙ターゲット検出は、宇宙の状況認識に不可欠である。従来の教師なし手法は、低信号対雑音比と可変ストライプのような空間ターゲットシナリオで失敗することが多い。我々は,静的および動的教師モデルと学生モデルを含む,革新的な協調静的動的教師(CSDT)SSLフレームワークを導入する。また,マルチスケールデュアルパス畳み込み(MDPC)ブロックと特徴マップ重み付き注目(FMWA)ブロックを備えた新しいSSTDネットワークであるMSSA-Netを提案する。
論文参考訳（メタデータ） (2024-08-09T12:33:27Z)
Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文参考訳（メタデータ） (2024-06-28T14:56:21Z)
Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,データ共有を必要とせず,エージェント間で集中マップモデルを共同で学習する手法を提案する。我々のアプローチは暗黙のニューラルマッピングを利用して、パシモニアスで適応可能な表現を生成する。火星の地形と氷河のデータセットを用いたフェデレーションマッピング手法の有効性を実証する。
論文参考訳（メタデータ） (2024-04-02T20:32:32Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Co-visual pattern augmented generative transformer learning for automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。 CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-17T07:29:02Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。 TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文参考訳（メタデータ） (2021-12-07T09:27:56Z)
Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文参考訳（メタデータ） (2021-11-10T06:53:03Z)
Clustering augmented Self-Supervised Learning: Anapplication to Land Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2021-08-16T19:35:43Z)
Trajectory Design for UAV-Based Internet-of-Things Data Collection: A Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文参考訳（メタデータ） (2021-07-23T03:33:29Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)
Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。 GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文参考訳（メタデータ） (2020-11-06T14:01:03Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。