論文の概要: Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery
- arxiv url: http://arxiv.org/abs/2605.11654v2
- Date: Mon, 18 May 2026 13:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.695545
- Title: Weather-Robust Cross-View Geo-Localization via Prototype-Based Semantic Part Discovery
- Title(参考訳): プロトタイプに基づくセマンティックな部分発見による気象ロストクロスビューのジオローカライゼーション
- Authors: Chi-Nguyen Tran, Dao Sy Duy Minh, Huynh Trung Kiet, Nguyen Lam Phu Quy, Phu-Hoa Pham, Long Tran-Thanh,
- Abstract要約: クロスビュージオローカライゼーション(CVGL)は、信号が妨害されたり、スプーフされたり、利用できない場合、自律ドローンナビゲーションのキーとなる代替手段として登場した。
パッチグリッド上の明示的な部分グループ化を実現する,パッチベースの視覚変換器(ViT)用の軽量スワップ可能なヘッドであるSkyPartを提案する。
26.95Mパラメータと22.14 GFLOPでは、SkyPartは最もパフォーマンスの高い手法の中で最小である。
- 参考スコア(独自算出の注目度): 6.276425555068115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-view geo-localization (CVGL), which matches an oblique drone view to a geo-referenced satellite tile, has emerged as a key alternative for autonomous drone navigation when GNSS signals are jammed, spoofed, or unavailable. Despite strong recent progress, three limitations persist: (1) global-descriptor designs compress the patch grid into a single vector without separating layout from texture across the view gap; (2) altitude-related scale variation is retained in the learned embedding rather than marginalized; and (3) multi-objective training relies on hand-tuned scalars over losses on incompatible gradient scales. We propose SkyPart, a lightweight swappable head for patch-based vision transformers (ViTs) that institutes explicit part grouping over the patch grid. SkyPart has four theory-grounded components: (i) learnable prototypes competing for patch tokens via single-pass cosine assignment; (ii) altitude-conditioned linear modulation applied only during training, making the retrieval embedding altitude-free at inference; (iii) a graph-attention readout over active prototypes; and (iv) a Kendall uncertainty-weighted multi-objective loss whose stationary points are Pareto-stationary. At 26.95M parameters and 22.14 GFLOPs, SkyPart is the smallest among top-performing methods and sets a new state of the art on SUES-200, University-1652, and DenseUAV under a single-pass, no-re-ranking, no-TTA protocol. Its advantage over the strongest baseline widens under the ten-condition WeatherPrompt corruption benchmark.
- Abstract(参考訳): 斜めのドローンビューとジオレファレンス衛星タイルとをマッチングするクロスビュージオローカライゼーション(CVGL)が、GAS信号が妨害されたり、スプーフされたり、利用できない場合、自律的なドローンナビゲーションのキーとなる代替手段として登場した。
近年の進歩にもかかわらず,(1)グローバルディスクリプタ設計では,視界ギャップを挟むテクスチャからレイアウトを分離することなく,パッチグリッドを単一ベクトルに圧縮する,(2)高度関連スケールのばらつきは,辺縁化ではなく,学習した埋め込みに保持する,(3)非互換の勾配スケールの損失に対して手動スカラーに依存する,という3つの制限が持続している。
パッチグリッド上の明示的な部分グループ化を実現する,パッチベースの視覚変換器(ViT)用の軽量スワップ可能なヘッドであるSkyPartを提案する。
SkyPartには4つの理論上のコンポーネントがある。
(i)単一パスコサイン代入によるパッチトークンの競合する学習可能なプロトタイプ
2 高度条件線形変調は、訓練中にのみ適用され、推論時に高度を埋め込むことができる。
三 能動プロトタイプに対するグラフ注意読解
(iv) 静止点がパレート定常であるケンドールの不確実性重み付き多目的損失。
26.95Mパラメータと22.14 GFLOPでは、SkyPartは、SUES-200、University-1652、DenseUAVにおいて、単一パス、非再ランク、非TTAプロトコルで新しい最先端技術を設定する。
10条件のWeatherPromptの汚職ベンチマークでは、ベースラインが最強だったことに対するアドバンテージが拡大した。
関連論文リスト
- FugSeg: Fast Uncertainty-aware Ground Segmentation for 3D Point Cloud [5.833408604400841]
FugSegは高速不確実性認識地上分割法である。
極格子マップが点雲表現として採用され、LiDARタイプ間の一般化性を保証する。
内部および横断的な接地ラベリング戦略は、直接見える接地細胞だけでなく、孤立または閉鎖されている細胞も識別する。
点レベルの接地セグメンテーションを実現するために, きめ細かい地盤標高推定法を導入する。
論文 参考訳(メタデータ) (2026-05-09T13:44:48Z) - LAF-YOLOv10 with Partial Convolution Backbone, Attention-Guided Feature Pyramid, Auxiliary P2 Head, and Wise-IoU Loss for Small Object Detection in Drone Aerial Imagery [0.0]
無人航空機は、監視、交通監視、災害対応のための主要なセンシングプラットフォームとして機能する。
現在の検出器は、わずか数ピクセルのターゲット、散らかった背景、重い閉塞、厳格な計算予算など、UAV固有の課題に対処している。
この研究は、YOLOv10n上に構築されたRAF-YOLOv10を紹介し、ドローン画像の小さな物体検出を改善するために4つの補完技術を統合する。
論文 参考訳(メタデータ) (2026-02-13T18:23:54Z) - Expert Switching for Robust AAV Landing: A Dual-Detector Framework in Simulation [0.0]
2人のYOLOv8専門家が、HelipadCatデータセットのスケール特化バージョンでトレーニングされている。
推論の間、どちらの専門家も並列に操作し、幾何学的なゲーティング機構は、AAVの視点と最も一致した予測を持つ専門家を選択する。
その結果, 単検出器ベースラインに比べてアライメント, 着陸精度, 全体的なロバスト性は著しく向上した。
論文 参考訳(メタデータ) (2025-12-16T03:41:59Z) - GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification [32.31970656501684]
Aerial-Ground person re-identification (AG-ReID) は、歩行者のイメージを根本的に異なる視点からマッチングすることを目的とした、新たな課題である。
この課題は、極端に視点のずれ、ワープ、空中画像と地上画像の間の領域ギャップのために重大な課題を生じさせる。
論文 参考訳(メタデータ) (2025-10-25T12:16:10Z) - Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery [0.0]
リモートセンシング画像から災害影響領域のセグメンテーションを洗練するための視覚変換器(ViT)ベースのディープラーニングフレームワークを提案する。
本フレームワークはセグメント化結果のスムーズさと信頼性を向上し,正確な地下真実が得られない場合の災害対応にスケーラブルなアプローチを提供する。
論文 参考訳(メタデータ) (2025-07-21T07:48:07Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。