論文の概要: SCC-Loc: A Unified Semantic Cascade Consensus Framework for UAV Thermal Geo-Localization
- arxiv url: http://arxiv.org/abs/2604.03120v1
- Date: Fri, 03 Apr 2026 15:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.516999
- Title: SCC-Loc: A Unified Semantic Cascade Consensus Framework for UAV Thermal Geo-Localization
- Title(参考訳): SCC-Loc:UAV熱ジオローカライゼーションのための統一セマンティックカスケードコンセンサスフレームワーク
- Authors: Xiaoran Zhang, Yu Liu, Jinyu Liang, Kangqiushi Li, Zhiwei Huang, Huaxin Xiao,
- Abstract要約: クロスモーダル・サーマルジオローカライゼーション (TG) は、グローバルナビゲーション衛星システム (GNSS) による無人航空機 (UAV) の堅牢で全天候のソリューションを提供する。
このボトルネックを解消するために,セマンティック・カスケード・コンセンサス・ローカライゼーション・フレームワークであるSCC-Locを提案する。
実験により、SCC-Locは新しい最先端技術を確立し、平均局所化誤差を9.37mに抑え、精度を7.6倍に改善した。
- 参考スコア(独自算出の注目度): 6.618475712125794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal Thermal Geo-localization (TG) provides a robust, all-weather solution for Unmanned Aerial Vehicles (UAVs) in Global Navigation Satellite System (GNSS)-denied environments. However, profound thermal-visible modality gaps introduce severe feature ambiguity, systematically corrupting conventional coarse-to-fine registration. To dismantle this bottleneck, we propose SCC-Loc, a unified Semantic-Cascade-Consensus localization framework. By sharing a single DINOv2 backbone across global retrieval and MINIMA$_{\text{RoMa}}$ matching, it minimizes memory footprint and achieves zero-shot, highly accurate absolute position estimation. Specifically, we tackle modality ambiguity by introducing three cohesive components. First, we design the Semantic-Guided Viewport Alignment (SGVA) module to adaptively optimize satellite crop regions, effectively correcting initial spatial deviations. Second, we develop the Cascaded Spatial-Adaptive Texture-Structure Filtering (C-SATSF) mechanism to explicitly enforce geometric consistency, thereby eradicating dense cross-modal outliers. Finally, we propose the Consensus-Driven Reliability-Aware Position Selection (CD-RAPS) strategy to derive the optimal solution through a synergy of physically constrained pose optimization. To address data scarcity, we construct Thermal-UAV, a comprehensive dataset providing 11,890 diverse thermal queries referenced against a large-scale satellite ortho-photo and corresponding spatially aligned Digital Surface Model (DSM). Extensive experiments demonstrate that SCC-Loc establishes a new state-of-the-art, suppressing the mean localization error to 9.37 m and providing a 7.6-fold accuracy improvement within a strict 5-m threshold over the strongest baseline. Code and dataset are available at https://github.com/FloralHercules/SCC-Loc.
- Abstract(参考訳): クロスモーダル・サーマルジオローカライゼーション (TG) は、グローバルナビゲーション衛星システム (GNSS) による無人航空機 (UAV) の堅牢で全天候のソリューションを提供する。
しかし、熱可視の深いモダリティギャップは、深刻な特徴あいまいさをもたらし、体系的に従来の粗い粒径の登録を損なう。
このボトルネックを解消するために,セマンティック・カスケード・コンセンサス・ローカライゼーション・フレームワークであるSCC-Locを提案する。
グローバル検索とMINIMA$_{\text{RoMa}}$マッチングで単一のDINOv2バックボーンを共有することで、メモリフットプリントを最小化し、ゼロショットで高精度な絶対位置推定を実現する。
具体的には,3つの結合成分を導入することで,モダリティのあいまいさに対処する。
まず,衛星作物領域を適応的に最適化し,初期空間偏差を効果的に補正するセマンティックガイドビューポートアライメント(SGVA)モジュールを設計する。
第2に,空間適応型テクスチャ構造フィルタ (C-SATSF) 機構を開発した。
最後に,コンセンサス駆動型信頼性を考慮した位置選択(CD-RAPS)戦略を提案し,物理的に制約されたポーズ最適化の相乗効果によって最適解を導出する。
データ不足に対処するため,大規模な衛星写真とそれに対応する空間整合型DSM(Digital Surface Model)に対して,11,890の多様な熱クエリを提供する包括的データセットであるTherial-UAVを構築した。
大規模な実験により、SCC-Locは新しい最先端技術を確立し、平均局所化誤差を9.37mに抑え、最強のベースラインよりも厳密な5mの閾値で7.6倍の精度で改善することを示した。
コードとデータセットはhttps://github.com/FloralHercules/SCC-Loc.orgで公開されている。
関連論文リスト
- MRGeo: Robust Cross-View Geo-Localization of Corrupted Images via Spatial and Channel Feature Enhancement [15.9788448312641]
クロスビュージオローカライゼーション (CVGL) は、対応するジオタグ付き衛星画像の検索により、ストリートビュー画像を正確にローカライズすることを目的としている。
以前の研究は、特定の標準データセット上でほぼ完璧なパフォーマンスを達成したが、現実の腐敗した環境での堅牢性は、まだ未調査のままである。
汚職下での堅牢なCVGLのための最初の体系的手法であるMRGeoを紹介する。
論文 参考訳(メタデータ) (2026-03-13T02:37:43Z) - IoUCert: Robustness Verification for Anchor-based Object Detectors [58.35703549470485]
IoUCertは、アンカーベースのオブジェクト検出アーキテクチャにおいて、これらのボトルネックを克服するために設計された、新しい形式的検証フレームワークである。
本手法は, SSD, YOLOv2, YOLOv3など, 現実的なアンカーベースモデルの各種入力摂動に対するロバスト性検証を可能にする。
論文 参考訳(メタデータ) (2026-03-03T14:36:46Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Generative MIMO Beam Map Construction for Location Recovery and Beam Tracking [67.65578956523403]
本稿では,スパースチャネル状態情報(CSI)から位置ラベルを直接復元する生成フレームワークを提案する。
生のCSIを直接格納する代わりに、小型の低次元無線地図の埋め込みを学び、生成モデルを利用して高次元CSIを再構築する。
数値実験により,NLOSシナリオにおける局所化精度が30%以上向上し,20%のキャパシティゲインが得られることが示された。
論文 参考訳(メタデータ) (2025-11-21T07:25:49Z) - Towards Channel Charting Enhancement with Non-Reconfigurable Intelligent Surfaces [8.162955286698688]
我々は、チャネルチャート(CC)を強化するために、完全受動電磁スキン(EMS)をどのように設計できるかを検討する。
我々は2つの補完的な最先端CC技術、半教師付きt分散隣接埋め込み(t-SNE)と半教師付きオートエンコーダ(AE)を採用している。
CCヒンジの精度は信号対雑音比(SNR)と空間差のバランスに左右されることを示す。
論文 参考訳(メタデータ) (2025-11-02T12:43:43Z) - Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。
分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。
本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:35:11Z) - COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection [13.236592868442678]
マルチモーダル赤緑色サーマル(RGBT)画像における微小物体検出のための新しいフレームワークを提案する。
クロス層核融合モジュールは、セマンティックおよび空間的精度を高めるために、高レベルの可視・低レベルの熱特徴を融合する。
Dynamic Alignment and Scale Refinement Modules corrects cross-modal space misalignment。
GeoShapeの類似度測定は、より優れたローカライゼーションに使用される。
論文 参考訳(メタデータ) (2025-08-13T06:30:03Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。