論文の概要: Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark
- arxiv url: http://arxiv.org/abs/2603.04056v1
- Date: Wed, 04 Mar 2026 13:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.3203
- Title: Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark
- Title(参考訳): 動的ベントニック環境における長期視覚的位置決め:データセット,フットプリントに基づく地中真実,および視覚的位置認識ベンチマーク
- Authors: Martin Kvisvik Larsen, Oscar Pizarro,
- Abstract要約: 自律型水中車両(AUV)を用いた光学的ベントニックモニタリングにおける長期視覚的局在化によるコスト削減とマッピング品質の向上の可能性
ベントニック環境における長期的視覚的位置決めのためのキュレートされたデータセットと、近海水中画像のための地表面の視覚的位置決めのための新しい手法を提案する。
われわれの知る限り、これは複数の場所と光沢ゾーンの生息地にまたがる長期の視覚的位置決めのための最初の水中データセットである。
- 参考スコア(独自算出の注目度): 2.944925363991407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term visual localization has the potential to reduce cost and improve mapping quality in optical benthic monitoring with autonomous underwater vehicles (AUVs). Despite this potential, long-term visual localization in benthic environments remains understudied, primarily due to the lack of curated datasets for benchmarking. Moreover, limited georeferencing accuracy and image footprints necessitate precise geometric information for accurate ground-truthing. In this work, we address these gaps by presenting a curated dataset for long-term visual localization in benthic environments and a novel method to ground-truth visual localization results for near-nadir underwater imagery. Our dataset comprises georeferenced AUV imagery from five benthic reference sites, revisited over periods up to six years, and includes raw and color-corrected stereo imagery, camera calibrations, and sub-decimeter registered camera poses. To our knowledge, this is the first curated underwater dataset for long-term visual localization spanning multiple sites and photic-zone habitats. Our ground-truthing method estimates 3D seafloor image footprints and links camera views with overlapping footprints, ensuring that ground-truth links reflect shared visual content. Building on this dataset and ground truth, we benchmark eight state-of-the-art visual place recognition (VPR) methods and find that Recall@K is significantly lower on our dataset than on established terrestrial and underwater benchmarks. Finally, we compare our footprint-based ground truth to a traditional location-based ground truth and show that distance-threshold ground-truthing can overestimate VPR Recall@K at sites with rugged terrain and altitude variations. Together, the curated dataset, ground-truthing method, and VPR benchmark provide a stepping stone for advancing long-term visual localization in dynamic benthic environments.
- Abstract(参考訳): 長期の視覚的ローカライゼーションは、自律型水中車両(AUV)による光学的ベントニックモニタリングにおいて、コスト削減とマッピング品質の向上をもたらす可能性がある。
このような可能性にもかかわらず、ベントック環境における長期的な視覚的ローカライゼーションは、主にベンチマークのためのキュレートされたデータセットが欠如しているため、まだ検討されていない。
さらに,地表面の精度や画像のフットプリントに精度の高い幾何学的情報が必要である。
本研究では,ベントニックな環境下での長期的視覚的位置決めのためのキュレートされたデータセットと,近海水中画像の地表面の視覚的位置決めのための新しい手法を提示することにより,これらのギャップに対処する。
本データセットは,5つのベントニック基準地点からのAUV画像をジオレファレンスし,最大6年間の再検討を行い,生画像と色補正ステレオ画像,カメラキャリブレーション,サブデシメータ登録カメラポーズを含む。
われわれの知る限り、これは複数の場所と光沢ゾーンの生息地にまたがる長期の視覚的位置決めのための最初の水中データセットである。
提案手法では, 3次元海底画像のフットプリントを推定し, カメラビューと重なり合うフットプリントを関連付けることにより, 接地トラスリンクが共有視覚コンテンツを反映することを保証する。
このデータセットと地上の真実に基づいて、8つの最先端の視覚的位置認識(VPR)手法をベンチマークし、Recall@Kが既存の地上および水中のベンチマークよりもデータセット上で著しく低いことを発見した。
最後に、我々の足跡に基づく地上の真実を従来の位置に基づく地上の真実と比較し、距離を保った地上の真実は、地形や高度のばらつきのある場所でVPR Recall@Kを過大評価できることを示す。
キュレートされたデータセット、接地構造法、VPRベンチマークは、動的ベントック環境における長期的な視覚的局所化を促進するためのステップストーンを提供する。
関連論文リスト
- Loc$^2$: Interpretable Cross-View Localization via Depth-Lifted Local Feature Matching [80.57282092735991]
本稿では,高精度かつ解釈可能なクロスビューローカライズ手法を提案する。
地上画像の3自由度(DoF)のポーズを、その局所的な特徴と基準空中画像とをマッチングすることによって推定する。
実験では、クロスエリアテストや未知の向きといった挑戦的なシナリオにおいて、最先端の精度を示す。
論文 参考訳(メタデータ) (2025-09-11T18:52:16Z) - GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization [70.65458151146767]
クロスビューのローカライゼーションは、自律ナビゲーションや拡張現実のような大規模な屋外アプリケーションにとって不可欠である。
既存の手法は、しばしば完全に教師付き学習に依存している。
本研究では,FoV(Field-of-View)ベースのマスキングを用いた教師学習フレームワークGeoDistillを提案する。
論文 参考訳(メタデータ) (2025-07-15T03:00:15Z) - GT-Loc: Unifying When and Where in Images Through a Joint Embedding Space [48.09196906704634]
GT-Locは、画像のキャプチャ時間(時間と月)と位置情報(GPS座標)を共同で予測する新しい検索ベースの手法である。
提案手法では,画像,時間,位置のエンコーダを分離し,その埋め込みを高次元特徴空間内に配置する。
論文 参考訳(メタデータ) (2025-07-14T16:54:57Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Cross-View Visual Geo-Localization for Outdoor Augmented Reality [11.214903134756888]
地上画像のクロスビューマッチングによる測地位置推定の課題をジオレファレンス衛星画像データベースに解決する。
本稿では,新しいトランスフォーマーニューラルネットワークモデルを提案する。
いくつかのベンチマーク・クロスビュー・ジオローカライズ・データセットの実験により、我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T01:58:03Z) - Do More With What You Have: Transferring Depth-Scale from Labeled to Unlabeled Domains [43.16293941978469]
自己教師付き深度推定器は、ドメイン全体の絶対深度値と線形に相関する大規模予測をもたらす。
トレーニング前の2つのデータセットのフィールド・オブ・ビューの整合性は、両方のドメインに共通な線形関係をもたらすことを示す。
観測された特性を用いて、絶対深度ラベルを持つソースデータセットから、これらの測定を欠いた新しいターゲットデータセットへ、深度スケールを転送する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - Visual Cross-View Metric Localization with Dense Uncertainty Estimates [11.76638109321532]
本研究は、屋外ロボティクスにおける視覚的クロスビューメトリックローカライゼーションに対処する。
地上レベルのカラー画像と局地的な環境を含む衛星パッチが与えられた場合、衛星パッチ内の地上カメラの位置を特定することが課題である。
我々は、より高密度な衛星記述子、ボトルネックにおける類似性マッチング、およびマルチモーダルなローカライゼーションの曖昧さを捉えるための出力としての密度空間分布を備えた新しいネットワークアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-08-17T20:12:23Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z) - Embedding Earth: Self-supervised contrastive pre-training for dense land
cover classification [61.44538721707377]
本研究では,衛星画像の高可用性を活用するための自己監督型コントラスト事前学習法として,エンベディングアースを提案する。
提案手法による事前学習では, 25%の絶対mIoUが得られた。
学習した特徴は、異なる領域間で一般化され、提案した事前学習スキームの可能性を開放する。
論文 参考訳(メタデータ) (2022-03-11T16:14:14Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。