論文の概要: Vision Foundation Models for Domain Generalisable Cross-View Localisation in Planetary Ground-Aerial Robotic Teams
- arxiv url: http://arxiv.org/abs/2601.09107v1
- Date: Wed, 14 Jan 2026 03:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.23769
- Title: Vision Foundation Models for Domain Generalisable Cross-View Localisation in Planetary Ground-Aerial Robotic Teams
- Title(参考訳): 惑星型地上航空ロボットチームにおける領域一般化型クロスビューローカライゼーションのためのビジョンファウンデーションモデル
- Authors: Lachlan Holden, Feras Dayoub, Alberto Candela, David Harvey, Tat-Jun Chin,
- Abstract要約: 我々は、機械学習を用いて、限られた視野の単眼の地上RGB画像を入力として、局所的な空域マップに自分自身をローカライズするローバーについて検討する。
機械学習手法における重要な考慮事項は、トレーニングに適した接地位置ラベルを持つ実空間データが不足していることである。
クロスビュー・ローカライズされたデュアルエンコーダディープニューラルネットワークを用いた空中地図におけるローバーのローカライズ手法を提案する。
- 参考スコア(独自算出の注目度): 15.147723721875456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate localisation in planetary robotics enables the advanced autonomy required to support the increased scale and scope of future missions. The successes of the Ingenuity helicopter and multiple planetary orbiters lay the groundwork for future missions that use ground-aerial robotic teams. In this paper, we consider rovers using machine learning to localise themselves in a local aerial map using limited field-of-view monocular ground-view RGB images as input. A key consideration for machine learning methods is that real space data with ground-truth position labels suitable for training is scarce. In this work, we propose a novel method of localising rovers in an aerial map using cross-view-localising dual-encoder deep neural networks. We leverage semantic segmentation with vision foundation models and high volume synthetic data to bridge the domain gap to real images. We also contribute a new cross-view dataset of real-world rover trajectories with corresponding ground-truth localisation data captured in a planetary analogue facility, plus a high volume dataset of analogous synthetic image pairs. Using particle filters for state estimation with the cross-view networks allows accurate position estimation over simple and complex trajectories based on sequences of ground-view images.
- Abstract(参考訳): 惑星ロボティクスにおける正確なローカライゼーションは、将来のミッションの規模と範囲を拡大するために必要な高度な自律性を可能にする。
Ingenuityヘリコプターと複数の惑星周回機の成功は、地上のロボットチームを使用する将来のミッションの土台となった。
本稿では,機械学習を用いたローバーによる局所的空域地図の局所的位置推定について,限定的な視野のモノクラーグラウンド-ビューRGB画像を入力として検討する。
機械学習手法における重要な考慮事項は、トレーニングに適した接地位置ラベルを持つ実空間データが不足していることである。
本研究では,クロスビュー・ローカライズされたデュアルエンコーダディープニューラルネットワークを用いた空中地図におけるローバーのローバー位置決め手法を提案する。
視覚基盤モデルと高ボリューム合成データによるセマンティックセグメンテーションを利用して、領域ギャップを実際の画像にブリッジする。
また,惑星アナログ施設で取得した地中位置データと,類似合成画像対の高ボリュームデータセットを用いて,実世界のローバー軌道のクロスビューデータセットを新たに提供した。
クロスビューネットワークによる状態推定に粒子フィルタを用いることで、地上画像のシーケンスに基づいて、単純かつ複雑な軌道上の正確な位置推定が可能になる。
関連論文リスト
- AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis [57.249817395828174]
本研究では,3次元都市規模のメッシュからの擬似合成レンダリングと,実地レベルでのクラウドソース画像を組み合わせたスケーラブルなフレームワークを提案する。
擬似合成データは、幅広い空中視点をシミュレートする一方、実際のクラウドソース画像は、地上レベルの画像の視覚的忠実度を改善するのに役立つ。
このハイブリッドデータセットを使用して、いくつかの最先端のアルゴリズムを微調整し、実世界のゼロショット地上作業において大幅な改善を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:57:05Z) - AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations [51.44608822712786]
ビジュアルグラウンドイングは、自然言語記述に基づいたイメージ内のターゲットオブジェクトのローカライズを目的としている。
AerialVGは、例えば外見に基づく接地は、複数の視覚的に類似した物体を識別するには不十分である。
5Kの空中画像,50Kの注釈付き記述,103Kのオブジェクトからなる,最初のAerialVGデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-10T15:13:00Z) - Learning autonomous driving from aerial imagery [67.06858775696453]
フォトグラムシミュレーターは、生成済みの資産を新しいビューに変換することによって、新しいビューを合成することができる。
我々は、ニューラルネットワーク場(NeRF)を中間表現として使用し、地上車両の視点から新しいビューを合成する。
論文 参考訳(メタデータ) (2024-10-18T05:09:07Z) - Energy-Based Models for Cross-Modal Localization using Convolutional
Transformers [52.27061799824835]
GPSのない衛星画像に対して、距離センサを搭載した地上車両を位置決めする新しい枠組みを提案する。
本稿では, 畳み込み変換器を用いて, 高精度な計量レベルの局所化を行う手法を提案する。
我々は、エンドツーエンドでモデルをトレーニングし、KITTI、Pandaset、カスタムデータセットの最先端技術よりも高い精度でアプローチを実証する。
論文 参考訳(メタデータ) (2023-06-06T21:27:08Z) - LARD - Landing Approach Runway Detection -- Dataset for Vision Based
Landing [2.7400353551392853]
本稿では,接近・着陸時の滑走路検出のための高品質な空中画像のデータセットを提案する。
データセットの大部分は合成画像で構成されていますが、実際の着陸映像から手動でラベル付けされた画像も提供しています。
このデータセットは、データセットの品質の分析や、検出タスクに対処するモデルの開発など、さらなる研究の道を開く。
論文 参考訳(メタデータ) (2023-04-05T08:25:55Z) - Autonomous Marker-less Rapid Aerial Grasping [5.892028494793913]
本稿では,自律的高速空中把握のための視覚ベースシステムを提案する。
検出対象の高密度点雲を生成し,幾何に基づく把握計画を行う。
飛行プラットフォームを用いた幾何学的把握技術の最初の利用例を示す。
論文 参考訳(メタデータ) (2022-11-23T16:25:49Z) - Uncertainty-aware Vision-based Metric Cross-view Geolocalization [25.87104194833264]
地上画像と空中画像を用いて車両のポーズの確率分布を予測するエンド・ツー・エンドの微分モデルを提案する。
テストエリアからの地上データや空中データなしでも、最先端の技術を大きなマージンで改善する。
論文 参考訳(メタデータ) (2022-11-22T10:23:20Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Embedding Earth: Self-supervised contrastive pre-training for dense land
cover classification [61.44538721707377]
本研究では,衛星画像の高可用性を活用するための自己監督型コントラスト事前学習法として,エンベディングアースを提案する。
提案手法による事前学習では, 25%の絶対mIoUが得られた。
学習した特徴は、異なる領域間で一般化され、提案した事前学習スキームの可能性を開放する。
論文 参考訳(メタデータ) (2022-03-11T16:14:14Z) - Solving Occlusion in Terrain Mapping with Neural Networks [7.703348666813963]
本研究では,実世界のデータに基づいて,地上情報を必要としない自己教師付き学習手法を提案する。
私たちのニューラルネットワークは、自律的な地上ロボットに適したサンプリングレートで、CPUとGPUの両方でリアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-09-15T08:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。