論文の概要: Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains
- arxiv url: http://arxiv.org/abs/2506.05250v1
- Date: Thu, 05 Jun 2025 17:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.84072
- Title: Spatiotemporal Contrastive Learning for Cross-View Video Localization in Unstructured Off-road Terrains
- Title(参考訳): 非構造オフロード地域でのクロスビュー映像定位のための時空間コントラスト学習
- Authors: Zhiyun Deng, Dongmyeong Lee, Amanda Adkins, Jesse Quattrociocchi, Christian Ellis, Joydeep Biswas,
- Abstract要約: MoViXは、セルフ教師付きクロスビュービデオローカライゼーションフレームワークである。
方向認識を維持しながら、視点と季節不変表現を学習する。
MoViXは25m以内の地中真理を93%、そして50m以内の地中における地中真理を定めている。
- 参考スコア(独自算出の注目度): 6.8857090684309155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust cross-view 3-DoF localization in GPS-denied, off-road environments remains challenging due to (1) perceptual ambiguities from repetitive vegetation and unstructured terrain, and (2) seasonal shifts that significantly alter scene appearance, hindering alignment with outdated satellite imagery. To address this, we introduce MoViX, a self-supervised cross-view video localization framework that learns viewpoint- and season-invariant representations while preserving directional awareness essential for accurate localization. MoViX employs a pose-dependent positive sampling strategy to enhance directional discrimination and temporally aligned hard negative mining to discourage shortcut learning from seasonal cues. A motion-informed frame sampler selects spatially diverse frames, and a lightweight temporal aggregator emphasizes geometrically aligned observations while downweighting ambiguous ones. At inference, MoViX runs within a Monte Carlo Localization framework, using a learned cross-view matching module in place of handcrafted models. Entropy-guided temperature scaling enables robust multi-hypothesis tracking and confident convergence under visual ambiguity. We evaluate MoViX on the TartanDrive 2.0 dataset, training on under 30 minutes of data and testing over 12.29 km. Despite outdated satellite imagery, MoViX localizes within 25 meters of ground truth 93% of the time, and within 50 meters 100% of the time in unseen regions, outperforming state-of-the-art baselines without environment-specific tuning. We further demonstrate generalization on a real-world off-road dataset from a geographically distinct site with a different robot platform.
- Abstract(参考訳): GPSを用いたオフロード環境におけるロバストな3DFローカライゼーションは,(1)繰り返し植生と非構造地形からの知覚的曖昧さ,(2)シーンの外観を著しく変化させ,時代遅れの衛星衛星との整合を阻害する季節変化のため,依然として困難である。
そこで我々は,視点・季節不変の表現を学習し,正確な位置認識に不可欠な方向認識を保ちながら,自己監督型クロスビュービデオローカライゼーションフレームワークであるMoViXを紹介する。
MoViXは、季節的手がかりからのショートカット学習を抑えるために、姿勢依存の正のサンプリング戦略を採用し、方向性の識別を強化し、時間的に負のマイニングを強固に調整する。
動きインフォームドフレームサンプリング装置は、空間的に多様なフレームを選択し、軽量の時間アグリゲータは、不明瞭なフレームを下げながら幾何学的に整列した観察を強調する。
推論では、MoViXはモンテカルロのローカライゼーションフレームワーク内で動作し、手作りモデルの代わりに学習されたクロスビューマッチングモジュールを使用する。
エントロピー誘導温度スケーリングは、視覚的あいまいさの下で頑健な多仮説追跡と確実な収束を可能にする。
私たちは、TartanDrive 2.0データセット上でMoViXを評価し、30分未満のデータでトレーニングし、12.29kmでテストします。
時代遅れの衛星画像にもかかわらず、MoViXは25m以内の地平線を93%、そして50m以内の時間帯を未確認領域でローカライズする。
さらに、異なるロボットプラットフォームを持つ地理的に異なる場所からの現実世界のオフロードデータセットの一般化を実証する。
関連論文リスト
- STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文 参考訳(メタデータ) (2025-03-11T00:38:54Z) - Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data [0.08192907805418582]
本稿では,セマンティックセグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。
1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、ViT(Multi-Axis Vision Transformer)バックボーンを統合する。
もう一方のブランチは、U-ViNet(U-TAE)を用いてSentinel-2衛星画像Max時系列から複雑な時間ダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2024-10-01T07:50:37Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - Boosting 3-DoF Ground-to-Satellite Camera Localization Accuracy via
Geometry-Guided Cross-View Transformer [66.82008165644892]
地上レベルの画像と一致/検索衛星画像との相対的な回転と変換を推定することにより、地上カメラの位置と方向の精度を向上させる手法を提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-16T11:52:27Z) - 4Seasons: Benchmarking Visual SLAM and Long-Term Localization for
Autonomous Driving in Challenging Conditions [54.59279160621111]
大規模4Seasonsデータセットに基づく課題条件下での自律運転のための新しい視覚的SLAMと長期局所化ベンチマークを提案する。
提案したベンチマークでは,季節変化や天候,照明条件の変動による劇的な外見の変化が報告されている。
本稿では,視覚計測,大域的位置認識,および地図に基づく視覚的位置決め性能を共同評価するための統合ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-12-31T13:52:36Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Uncertainty-aware Perception Models for Off-road Autonomous Unmanned
Ground Vehicles [6.2574402913714575]
オフロード自律無人地上車両(UGV)は、遠隔地で重要な物資を供給するために軍用および商業用途のために開発されている。
現在のデータセットは、季節、場所、セマンティッククラス、および日時における多様性の欠如に対する、オフロード自律ナビゲーションのための知覚モデルのトレーニングに使用されています。
本研究では,複数のデータセットを組み合わせてセグメンテーションに基づく環境認識モデルを学習する方法について検討する。
我々は,不確実性を捉えるためにモデルをトレーニングすることで,モデルの性能を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2022-09-22T15:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。