Fugu-MT 論文翻訳(概要): Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization

論文の概要: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization

arxiv url: http://arxiv.org/abs/2502.11381v1
Date: Mon, 17 Feb 2025 02:53:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.039794
Title: Without Paired Labeled Data: An End-to-End Self-Supervised Paradigm for UAV-View Geo-Localization
Title（参考訳）: ラベルなしラベル付きデータ:UAV-Viewジオローカライゼーションのためのエンド・ツー・エンドセルフ・スーパービジョン・パラダイム
Authors: Zhongwei Chen, Zhao-Xu Yang, Hai-Jun Rong,
Abstract要約: UAV-View Geo-Localizationは、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。既存の手法は、トレーニングのためにアノテーション付きペアデータを必要とする教師付き学習パラダイムに依存している。本稿では,UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークであるDynamic Memory-Driven and Neighborhood Information Learning Networkを提案する。
参考スコア（独自算出の注目度）: 2.733505168507872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: UAV-View Geo-Localization (UVGL) aims to ascertain the precise location of a UAV by retrieving the most similar GPS-tagged satellite image. However, existing methods predominantly rely on supervised learning paradigms that necessitate annotated paired data for training, which incurs substantial annotation costs and impedes large-scale deployment. To overcome this limitation, we propose the Dynamic Memory-Driven and Neighborhood Information Learning (DMNIL) network, a lightweight end-to-end self-supervised framework for UAV-view geo-localization. The DMNIL framework utilizes a dual-path clustering-based contrastive learning architecture as its baseline to model intra-view structural relationships, enhancing feature consistency and discriminability. Additionally, a dynamic memory-driven hierarchical learning module is proposed to progressively mine local and global information, reinforcing multi-level feature associations to improve model robustness. To bridge the domain gap between UAV and satellite views, we design an information-consistent evolutionary learning mechanism that systematically explores latent correlations within intra-view neighborhoods and across cross-view domains, ultimately constructing a unified cross-view feature representation space. Extensive experiments on three benchmarks (University-1652, SUES-200, and DenseUAV) demonstrate that DMNIL achieves competitive performance against state-of-the-art supervised methods while maintaining computational efficiency. Notably, this superiority is attained without relying on paired training data, underscoring the framework's practicality for real-world deployment. Codes will be released soon.
Abstract（参考訳）: UAV-View Geo-Localization (UVGL)は、GPSタグ付き衛星画像を取得することで、UAVの正確な位置を確認することを目的としている。しかし、既存の手法は主に、注釈付きペアデータを必要とする教師付き学習パラダイムに依存しており、これはかなりのアノテーションコストを発生させ、大規模なデプロイメントを妨げる。この制限を克服するために、UAVビューのジオローカライゼーションのための軽量なエンドツーエンドの自己組織化フレームワークである動的メモリ駆動・周辺情報学習(DMNIL)ネットワークを提案する。 DMNILフレームワークは、デュアルパスクラスタリングに基づくコントラスト学習アーキテクチャをベースラインとして、ビュー内構造関係をモデル化し、機能の一貫性と識別性を向上させる。さらに,局所的およびグローバルな情報を段階的にマイニングするために,動的メモリ駆動型階層学習モジュールを提案する。 UAVと衛星視の領域ギャップを埋めるため、我々は、視界内および視界横断領域間の潜伏相関を体系的に探索する情報一貫性進化学習機構を設計し、最終的には統合された視界横断的特徴表現空間を構築する。 3つのベンチマーク(University-1652、SUES-200、DenseUAV)の大規模な実験は、DMNILが計算効率を維持しながら最先端の教師付き手法と競合する性能を発揮することを示した。特に、この優位性はペアのトレーニングデータに頼ることなく達成されており、現実世界のデプロイメントにおけるフレームワークの実用性を強調している。コードも間もなくリリースされる予定だ。

関連論文リスト

EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文参考訳（メタデータ） (2025-10-14T16:23:11Z)
DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
Open-Vocabulary Multi-Label Recognition (OV-MLR)は、画像内の複数の見えないオブジェクトカテゴリを識別することを目的としている。ビジョンランゲージ事前学習モデルは強力なオープン語彙基盤を提供するが、弱い監督下では微粒な局所化に苦慮する。本稿では,これらの制約を克服するためのDART(Dual Adaptive Refinement Transfer)フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T17:22:33Z)
DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。一般化を強化するために2つの補完正則化戦略を統合する。さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T00:14:52Z)
Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-27T13:58:12Z)
IGL-DT: Iterative Global-Local Feature Learning with Dual-Teacher Semantic Segmentation Framework under Limited Annotation Scheme [4.247494613524502]
Semi-Supervised Semantic (SSSS)は、ラベル付き画像の小さなセットとラベルなしデータのより大きなプールを活用することにより、セグメンテーションの精度を向上させることを目的としている。 IGL-DTという2つの教師戦略を取り入れた新しい三分岐半教師付きセグメンテーションフレームワークを提案する。本手法では,Global Context Learning と ResUnet を通した高レベルの意味指導にSwinUnet を用い,局所的学習を通じて詳細な特徴改善を行う。
論文参考訳（メタデータ） (2025-04-14T01:51:29Z)
From Limited Labels to Open Domains:An Efficient Learning Method for Drone-view Geo-Localization [12.785100004522059]
従来のドローンビュージオローカライゼーション(DVGL)手法は、ペア化されたトレーニングデータに大きく依存している。 DVGL法は、新しいペアデータを取得し、その後のモデル適応のための再訓練を必要とする。本稿では,限られた監督力を有するクロスドメイン不変知識伝達ネットワーク(CDIKTNet)を提案する。
論文参考訳（メタデータ） (2025-03-10T16:46:43Z)
Precise GPS-Denied UAV Self-Positioning via Context-Enhanced Cross-View Geo-Localization [10.429391988135345]
本研究では,UAV自己配置タスクに特化して設計されたCEUSPのコンテキスト拡張手法を提案する。 CEUSPは、動的サンプリング戦略(DSS)を統合して、最適な負のサンプルを効率的に選択する一方、RubikのCube Attention(RCA)モジュールは、Context-Aware Channel Integration(CACI)モジュールと組み合わせて、特徴表現と識別を強化する。本手法は,都市密集環境に特化して設計されたDenseUAVデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2025-02-17T03:49:18Z)
Extended Cross-Modality United Learning for Unsupervised Visible-Infrared Person Re-identification [34.93081601924748]
教師なし学習は、ラベルなしのモダリティデータセットからモダリティ不変の特徴を学習することを目的としている。既存の手法では、クロスモダリティクラスタリングが欠如し、クラスタレベルの関連性を過度に追求する。拡張Modality-Camera Clustering (EMCC) と Two-Step Memory Updating Strategy (TSMem) を併用した拡張Modality-Camera Clustering (EMCC) フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-26T09:30:26Z)
SaliencyI2PLoc: saliency-guided image-point cloud localization using contrastive learning [17.29563451509921]
SaliencyI2PLocは、Saliencyマップを機能集約に融合させる、対照的な学習アーキテクチャである。本手法は,都市シナリオ評価データセット上で78.92%のRecall@1と97.59%のRecall@20を実現する。
論文参考訳（メタデータ） (2024-12-20T05:20:10Z)
MOOSS: Mask-Enhanced Temporal Contrastive Learning for Smooth State Evolution in Visual Reinforcement Learning [8.61492882526007]
視覚的強化学習(RL)では、ピクセルベースの観察から学ぶことは、サンプル効率に大きな課題をもたらす。グラフベースの時空間マスキングの助けを借りて時間的コントラストの目的を生かした新しいフレームワークMOOSSを紹介する。複数の連続的および離散的な制御ベンチマークにおいて、MOOSSはサンプル効率の観点から従来の最先端の視覚的RL法よりも優れていたことを示す。
論文参考訳（メタデータ） (2024-09-02T18:57:53Z)
Collaborative Static-Dynamic Teaching: A Semi-Supervised Framework for Stripe-Like Space Target Detection [2.9133687889451023]
Stripeのような宇宙ターゲット検出は、宇宙の状況認識に不可欠である。従来の教師なし手法は、低信号対雑音比と可変ストライプのような空間ターゲットシナリオで失敗することが多い。我々は,静的および動的教師モデルと学生モデルを含む,革新的な協調静的動的教師(CSDT)SSLフレームワークを導入する。また,マルチスケールデュアルパス畳み込み(MDPC)ブロックと特徴マップ重み付き注目(FMWA)ブロックを備えた新しいSSTDネットワークであるMSSA-Netを提案する。
論文参考訳（メタデータ） (2024-08-09T12:33:27Z)
Into the Unknown: Generating Geospatial Descriptions for New Environments [18.736071151303726]
レンデブー課題は、同心空間関係の推論を必要とする。座標と組み合わせたオープンソース記述(例えばウィキペディア)を使用することで、トレーニングデータを提供するが、空間指向の限られたテキストに悩まされる。新しい環境のための高品質な合成データを生成するための大規模拡張手法を提案する。
論文参考訳（メタデータ） (2024-06-28T14:56:21Z)
Federated Multi-Agent Mapping for Planetary Exploration [0.4143603294943439]
本稿では,データ共有を必要とせず,エージェント間で集中マップモデルを共同で学習する手法を提案する。我々のアプローチは暗黙のニューラルマッピングを利用して、パシモニアスで適応可能な表現を生成する。火星の地形と氷河のデータセットを用いたフェデレーションマッピング手法の有効性を実証する。
論文参考訳（メタデータ） (2024-04-02T20:32:32Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Self-Supervised Representation Learning from Temporal Ordering of Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。 BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文参考訳（メタデータ） (2023-02-17T18:18:27Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Co-visual pattern augmented generative transformer learning for automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。 CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-17T07:29:02Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
TCGL: Temporal Contrastive Graph for Self-supervised Video Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。 TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文参考訳（メタデータ） (2021-12-07T09:27:56Z)
Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文参考訳（メタデータ） (2021-11-10T06:53:03Z)
Clustering augmented Self-Supervised Learning: Anapplication to Land Cover Mapping [10.720852987343896]
本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。社会的に関係のある2つのアプリケーションに対して,本手法の有効性を示す。
論文参考訳（メタデータ） (2021-08-16T19:35:43Z)
Trajectory Design for UAV-Based Internet-of-Things Data Collection: A Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文参考訳（メタデータ） (2021-07-23T03:33:29Z)
Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文参考訳（メタデータ） (2020-12-01T11:46:03Z)
Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。 GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文参考訳（メタデータ） (2020-11-06T14:01:03Z)
Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文参考訳（メタデータ） (2020-03-18T17:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。