Fugu-MT 論文翻訳(概要): Near Large Far Small: Relative Distance Based Partition Learning for UAV-view Geo-Localization

論文の概要: Near Large Far Small: Relative Distance Based Partition Learning for UAV-view Geo-Localization

arxiv url: http://arxiv.org/abs/2412.11535v1
Date: Mon, 16 Dec 2024 08:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.262674
Title: Near Large Far Small: Relative Distance Based Partition Learning for UAV-view Geo-Localization
Title（参考訳）: 近接極小:UAVビュー測地局所化のための相対距離に基づく分割学習
Authors: Quan Chen, Tingyu Wang, Rongfeng Lu, Bolun Zheng, Zhedong Zheng, Chenggang Yan,
Abstract要約: UAV-view Geo-Localization (UVGL) は、主にドローンビューと衛星ビューの外観の違いによって大きな課題を呈している。相対的距離に基づく分割学習フレームワークを提案し,粒度の細かい特徴をマイニングしながらスケールの一貫性への依存を軽減する。提案手法は, 様々なスケール不整合シナリオにおいて, 高精度な局所化精度を実現し, スケール変動に対する顕著なロバスト性を示す。
参考スコア（独自算出の注目度）: 37.30243235827088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: UAV-view Geo-Localization (UVGL) presents substantial challenges, primarily due to appearance differences between drone-view and satellite-view. Existing methods develop partition learning strategies aimed at mining more comprehensive information by constructing diverse part-level feature representations, which rely on consistent cross-view scales. However, variations of UAV flight state leads to the scale mismatch of cross-views, resulting in serious performance degradation of partition-based methods. To overcome this issue, we propose a partition learning framework based on relative distance, which alleviates the dependence on scale consistency while mining fine-grained features. Specifically, we propose a distance guided dynamic partition learning strategy (DGDPL), consisting of a square partition strategy and a dynamic-guided adjustment strategy. The former is utilized to extract fine-grained features and global features in a simple manner. The latter calculates the relative distance ratio between drone- and satellite-view to adjust the partition size, thereby aligning the semantic information between partition pairs. Furthermore, we propose a saliency-guided refinement strategy to refine part-level features, so as to further improve the retrieval accuracy. Extensive experiments show that our approach achieves superior geo-localization accuracy across various scale-inconsistent scenarios, and exhibits remarkable robustness against scale variations. The code will be released.
Abstract（参考訳）: UAV-view Geo-Localization (UVGL) は、主にドローンビューと衛星ビューの外観の違いによって大きな課題を呈している。既存手法は、一貫したクロスビュースケールに依存する多様な部分レベル特徴表現を構築することにより、より包括的な情報マイニングを目的とした分割学習戦略を開発する。しかし、UAV飛行状態の変動は、クロスビューのスケールミスマッチを招き、パーティションベース手法の大幅な性能低下をもたらす。この問題を克服するために,我々は,細粒度の特徴をマイニングしながら,スケール一貫性への依存を軽減する,相対距離に基づく分割学習フレームワークを提案する。具体的には、二乗分割戦略と動的誘導調整戦略からなる距離誘導動的分割学習戦略(DGDPL)を提案する。前者は簡単な方法で微細な特徴やグローバルな特徴を抽出するために利用される。後者は、ドローンと衛星ビュー間の相対距離比を算出し、分割サイズを調整し、分割ペア間の意味情報を整列させる。さらに,部分レベルの特徴を洗練し,検索精度をより高めるために,サリエンシ誘導型改良戦略を提案する。大規模な実験により,提案手法は大規模不整合シナリオにまたがって優れた地理的局所化精度を達成し,スケール変動に対する顕著な堅牢性を示した。コードはリリースされます。

関連論文リスト

Scale-aware Adaptive Supervised Network with Limited Medical Annotations [17.42211316792232]
SASNetは、新しいスケール対応適応リウェイト機構を通じて、低レベルと高レベルの両方の特徴表現を利用するデュアルブランチアーキテクチャである。このアプローチでは,スケールアウェアのAdaptive Reweight戦略を含む,3つの重要な方法論的イノベーションを導入している。 SASNetは、最先端の半教師付き手法を超越したラベル付きデータで優れた性能を達成する。
論文参考訳（メタデータ） (2026-01-02T23:55:17Z)
Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文参考訳（メタデータ） (2025-09-11T18:52:16Z)
GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文参考訳（メタデータ） (2025-08-14T11:31:43Z)
RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文参考訳（メタデータ） (2025-05-12T19:24:45Z)
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。 Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。 Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文参考訳（メタデータ） (2025-03-25T15:19:56Z)
Multi-Level Embedding and Alignment Network with Consistency and Invariance Learning for Cross-View Geo-Localization [2.733505168507872]
CVGL(Cross-View Geo-Localization)は、最もよく似たGPSタグ付き衛星画像を取得することで、ドローン画像のローカライゼーションを決定する。既存の手法は、モデルの性能を改善する際に、計算と記憶の要求が増大する問題をしばしば見落としている。マルチレベル・エンベディング・アライメント・ネットワーク(MEAN)と呼ばれる軽量なアライメント・ネットワークを提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:38Z)
AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales [45.315661330785275]
我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。我々は,特徴マッチングのための画像と点間の表現ギャップを埋めること,グローバルビューとローカルビューのスケールの相違に対処すること,という2つの重要な課題に取り組む。
論文参考訳（メタデータ） (2024-04-04T04:12:30Z)
SDPL: Shifting-Dense Partition Learning for UAV-View Geo-Localization [27.131867916908156]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じターゲットの画像にマッチすることを目的としている。本稿では,パートベース表現学習,シフト・デンス分割学習を紹介する。 SDPLは位置ずれに対して頑健であり、2つの一般的なベンチマークで反復的に動作することを示す。
論文参考訳（メタデータ） (2024-03-07T03:07:54Z)
Scale Optimization Using Evolutionary Reinforcement Learning for Object Detection on Drone Imagery [17.26524675722299]
本稿では, 粗い物体検出フレームワークに組み込まれた進化的強化学習エージェントを提案し, 画像中の物体のより効率的な検出のために, スケールを最適化する。スケール最適化の指針として, 局所化精度, 予測ラベルの精度, 近傍のパッチ間のスケール一貫性のセットを設計する。
論文参考訳（メタデータ） (2023-12-23T10:49:55Z)
Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。 ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文参考訳（メタデータ） (2023-03-29T12:28:01Z)
Adaptive Local-Component-aware Graph Convolutional Network for One-shot Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文参考訳（メタデータ） (2022-09-21T02:33:07Z)
Homography Decomposition Networks for Planar Object Tracking [11.558401177707312]
平面オブジェクトトラッキングは、ロボット工学、ビジュアルサーボ、ビジュアルSLAMといったAIアプリケーションにおいて重要な役割を果たす。本稿では, ホログラフィ変換を2つのグループに分解することで, 条件数を大幅に削減し, 安定化する新しいホモグラフィ分解ネットワークを提案する。
論文参考訳（メタデータ） (2021-12-15T06:13:32Z)
Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。 SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文参考訳（メタデータ） (2021-12-12T06:11:16Z)
Learning to Aggregate Multi-Scale Context for Instance Segmentation in Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文参考訳（メタデータ） (2021-11-22T08:55:25Z)
Bi-level Feature Alignment for Versatile Image Translation and Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文参考訳（メタデータ） (2021-07-07T05:26:29Z)
G$^2$DA: Geometry-Guided Dual-Alignment Learning for RGB-Infrared Person Re-Identification [3.909938091041451]
RGB-IRの人物再識別は、異種間の興味のある人物を検索することを目的としている。本稿では,サンプルレベルのモダリティ差に対処するための幾何誘導デュアルアライメント学習フレームワーク(G$2$DA)を提案する。
論文参考訳（メタデータ） (2021-06-15T03:14:31Z)
Spatial-spectral Hyperspectral Image Classification via Multiple Random Anchor Graphs Ensemble Learning [88.60285937702304]
本稿では,複数のランダムアンカーグラフアンサンブル学習(RAGE)を用いた空間スペクトルHSI分類手法を提案する。まず、各選択されたバンドのより記述的な特徴を抽出し、局所的な構造と領域の微妙な変化を保存するローカルバイナリパターンを採用する。次に,アンカーグラフの構成に適応隣接代入を導入し,計算複雑性を低減した。
論文参考訳（メタデータ） (2021-03-25T09:31:41Z)
Domain-invariant Similarity Activation Map Contrastive Learning for Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。 CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文参考訳（メタデータ） (2020-09-16T14:43:22Z)
Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文参考訳（メタデータ） (2020-08-26T16:06:11Z)
Multi-view Drone-based Geo-localization via Style and Spatial Alignment [47.95626612936813]
マルチビュー・マルチソース・ジオローカライゼーションは、ドローンビュー画像と衛星ビュー画像とを事前アノテーション付きGPSタグとマッチングすることにより、GPS位置決めの重要な補助的手法として機能する。パターンを整列させるエレガントな配向に基づく手法を提案し、整列部分特徴を抽出する新しい分岐を導入する。
論文参考訳（メタデータ） (2020-06-23T15:44:02Z)
Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文参考訳（メタデータ） (2020-05-11T04:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。