論文の概要: Visual Place Recognition for Large-Scale UAV Applications
- arxiv url: http://arxiv.org/abs/2507.15089v1
- Date: Sun, 20 Jul 2025 19:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.191441
- Title: Visual Place Recognition for Large-Scale UAV Applications
- Title(参考訳): 大規模UAVアプリケーションのための視覚的位置認識
- Authors: Ioannis Tsampikos Papapetros, Ioannis Kansizoglou, Antonios Gasteratos,
- Abstract要約: 視覚的位置認識は無人航空機(UAV)のナビゲーションにおいて重要な役割を担い、多様な環境にまたがるロバストなローカライゼーションを可能にする。
大幅な進歩にもかかわらず、大規模な高高度データセットの入手が限られているため、航空用vPRはユニークな課題に直面している。
約100万の画像を持つ大規模な空中データセットLASEDを導入し、エストニアの170,000のユニークな場所から体系的にサンプルを採取した。
- 参考スコア(独自算出の注目度): 4.888434990566422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (vPR) plays a crucial role in Unmanned Aerial Vehicle (UAV) navigation, enabling robust localization across diverse environments. Despite significant advancements, aerial vPR faces unique challenges due to the limited availability of large-scale, high-altitude datasets, which limits model generalization, along with the inherent rotational ambiguity in UAV imagery. To address these challenges, we introduce LASED, a large-scale aerial dataset with approximately one million images, systematically sampled from 170,000 unique locations throughout Estonia over a decade, offering extensive geographic and temporal diversity. Its structured design ensures clear place separation significantly enhancing model training for aerial scenarios. Furthermore, we propose the integration of steerable Convolutional Neural Networks (CNNs) to explicitly handle rotational variance, leveraging their inherent rotational equivariance to produce robust, orientation-invariant feature representations. Our extensive benchmarking demonstrates that models trained on LASED achieve significantly higher recall compared to those trained on smaller, less diverse datasets, highlighting the benefits of extensive geographic coverage and temporal diversity. Moreover, steerable CNNs effectively address rotational ambiguity inherent in aerial imagery, consistently outperforming conventional convolutional architectures, achieving on average 12\% recall improvement over the best-performing non-steerable network. By combining structured, large-scale datasets with rotation-equivariant neural networks, our approach significantly enhances model robustness and generalization for aerial vPR.
- Abstract(参考訳): 視覚的位置認識(vPR)は、無人航空機(UAV)ナビゲーションにおいて重要な役割を担い、多様な環境にまたがるロバストなローカライゼーションを可能にする。
大幅な進歩にもかかわらず、空中vPRは、UAV画像の自在な回転あいまいさとともに、モデル一般化を制限する大規模な高高度データセットの可用性が限られているため、ユニークな課題に直面している。
これらの課題に対処するために、約100万の画像を持つ大規模な空中データセットLASEDを導入し、10年以上にわたってエストニアの17万のユニークな場所から体系的にサンプリングし、地理的および時間的多様性を提供する。
その構造設計により、航空シナリオのモデルトレーニングを著しく強化する明確な場所分離が保証される。
さらに、回転分散を明示的に扱うために、ステアブル畳み込みニューラルネットワーク(CNN)の統合を提案し、その固有な回転同値を利用して、頑健で配向不変な特徴表現を生成する。
我々の広範なベンチマークは、LASEDでトレーニングされたモデルが、より小さく、より多様性の低いデータセットでトレーニングされたモデルよりも、はるかに高いリコールを実現し、広範な地理的カバレッジと時間的多様性の利点を強調していることを示している。
さらに、ステアブルCNNは、空中画像に固有の回転あいまいさを効果的に解決し、従来の畳み込みアーキテクチャを一貫して上回り、ベストパフォーマンスの非ステアブルネットワークよりも平均12倍のリコール改善を実現している。
構造化された大規模データセットと回転同変ニューラルネットワークを組み合わせることにより, モデルロバスト性と航空vPRの一般化が著しく向上する。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Efficient Self-Supervised Learning for Earth Observation via Dynamic Dataset Curation [67.23953699167274]
自己教師付き学習(SSL)により、地球観測のための視覚基盤モデルの開発が可能になった。
EOでは、この課題は衛星画像に共通する冗長性と重尾分布によって増幅される。
本稿では,データセットの多様性とバランスを最大化し,SSL事前トレーニングを改善するために設計された動的データセットプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-04-09T15:13:26Z) - DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding [25.32283897448209]
DynamicVisはリモートセンシング画像のための動的視覚認識基盤モデルである。
選択状態空間モデルに基づく新しい動的領域知覚バックボーンを統合する。
97msのレイテンシ(ViTの6%)と833MBのGPUメモリ(ViTの3%)を備えた処理(2048x2048)ピクセルのマルチレベルの特徴モデリングを実現している。
論文 参考訳(メタデータ) (2025-03-20T17:59:54Z) - BEVDiffLoc: End-to-End LiDAR Global Localization in BEV View based on Diffusion Model [8.720833232645155]
Bird's-Eye-View (BEV) 画像は、自動運転において最も広く採用されているデータ表現の1つである。
ポーズの条件生成としてLiDAR局所化を定式化する新しいフレームワークであるBEVDiffLocを提案する。
論文 参考訳(メタデータ) (2025-03-14T13:17:43Z) - FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。
既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。
実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:08:40Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - ReF -- Rotation Equivariant Features for Local Feature Matching [30.459559206664427]
本稿では,モデルアーキテクチャ自体に偏りを生じさせ,回転特異な特徴を生じさせる代替的補完的手法を提案する。
我々は, ステアブルCNNの高性能, 回転特異的カバレッジを全回転角に拡張できることを実証した。
本稿では,アンサンブル,ロバストな推定,ネットワークアーキテクチャのバリエーション,回転前処理の効果について詳細に分析する。
論文 参考訳(メタデータ) (2022-03-10T07:36:09Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。