論文の概要: WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments
- arxiv url: http://arxiv.org/abs/2603.01475v1
- Date: Mon, 02 Mar 2026 05:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.701121
- Title: WildCross: A Cross-Modal Large Scale Benchmark for Place Recognition and Metric Depth Estimation in Natural Environments
- Title(参考訳): WildCross: 自然環境における位置認識とメートル法深度推定のためのクロスモーダルな大規模ベンチマーク
- Authors: Joshua Knights, Joseph Reid, Kaushik Roy, David Hall, Mark Cox, Peyman Moghadam,
- Abstract要約: WildCrossは、大規模自然環境における位置認識とメートル法深度推定のためのクロスモーダルベンチマークである。
我々は,視覚的,ライダー的,横断的な位置認識に関する総合的な実験を行い,距離深度推定を行った。
- 参考スコア(独自算出の注目度): 11.037873142796682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a significant increase in demand for robotic solutions in unstructured natural environments, alongside growing interest in bridging 2D and 3D scene understanding. However, existing robotics datasets are predominantly captured in structured urban environments, making them inadequate for addressing the challenges posed by complex, unstructured natural settings. To address this gap, we propose WildCross, a cross-modal benchmark for place recognition and metric depth estimation in large-scale natural environments. WildCross comprises over 476K sequential RGB frames with semi-dense depth and surface normal annotations, each aligned with accurate 6DoF poses and synchronized dense lidar submaps. We conduct comprehensive experiments on visual, lidar, and cross-modal place recognition, as well as metric depth estimation, demonstrating the value of WildCross as a challenging benchmark for multi-modal robotic perception tasks. We provide access to the code repository and dataset at https://csiro-robotics.github.io/WildCross.
- Abstract(参考訳): 近年、非構造自然環境におけるロボットソリューションの需要が著しく増加し、2Dおよび3Dシーン理解への関心が高まっている。
しかし、既存のロボティクスデータセットは、主に構造化された都市環境で捕獲され、複雑で非構造的な自然環境によって引き起こされる課題に対処するには不十分である。
このギャップに対処するため,大規模自然環境における位置認識とメートル法深度推定のためのクロスモーダルベンチマークWildCrossを提案する。
WildCrossは476K以上のシーケンシャルなRGBフレームと半深度と表面のノーマルアノテーションで構成され、それぞれが正確な6DoFポーズと同期された高密度ライダーサブマップに一致している。
我々は、視覚的、ライダー的、横断的な位置認識の総合的な実験、およびメートル法深度推定を行い、マルチモーダルロボット知覚タスクの挑戦的なベンチマークとしてWildCrossの価値を実証した。
コードリポジトリとデータセットはhttps://csiro-robotics.github.io/WildCross.comで公開しています。
関連論文リスト
- Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - HOTFormerLoc: Hierarchical Octree Transformer for Versatile Lidar Place Recognition Across Ground and Aerial Views [30.77381516091565]
大規模3次元位置認識のための新規で汎用的な階層型OctoreeベースのTransformerであるHOTFormerLocを提案する。
粒度にまたがる空間的特徴と意味的特徴をキャプチャするオクツリーに基づくマルチスケールアテンション機構を提案する。
CS-Wild-Placesは、密林で捉えた空中および地上のライダースキャンの点雲データを含む、新しい3次元オープンソースデータセットである。
論文 参考訳(メタデータ) (2025-03-11T07:59:45Z) - OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークである textbfOpenEarthSensing (OES) を紹介する。
OESには189のシーンとオブジェクトのカテゴリが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。
論文 参考訳(メタデータ) (2025-02-28T02:49:52Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments [33.25040383298019]
$WildScenes$は、高解像度の2Dイメージと高密度の3D LiDARポイントクラウドで構成されるバイモーダルベンチマークデータセットである。
データは軌道中心であり、正確なローカライゼーションとグローバルに整列した点雲がある。
我々の3Dセマンティックラベルは、人間の注釈付き2Dラベルを複数のビューから3Dポイントクラウドシーケンスに転送する効率的で自動化されたプロセスによって得られる。
論文 参考訳(メタデータ) (2023-12-23T22:27:40Z) - VoxelKP: A Voxel-based Network Architecture for Human Keypoint
Estimation in LiDAR Data [53.638818890966036]
textitVoxelKPは、LiDARデータにおける人間のキーポイント推定に適した、完全にスパースなネットワークアーキテクチャである。
本研究では,人間の各インスタンス内のキーポイント間の空間的相関を学習するために,スパースボックスアテンションを導入する。
鳥の視線を符号化する2次元格子に3次元ボクセルを投影する際に, 絶対的な3次元座標を利用するために空間符号化を組み込んだ。
論文 参考訳(メタデータ) (2023-12-11T23:50:14Z) - Unsupervised Spike Depth Estimation via Cross-modality Cross-domain Knowledge Transfer [53.413305467674434]
スパイク深度推定をサポートするためにオープンソースのRGBデータを導入し,そのアノテーションと空間情報を活用する。
教師なしスパイク深さ推定を実現するために,クロスモーダルクロスドメイン(BiCross)フレームワークを提案する。
提案手法は,RGB指向の教師なし深度推定法と比較して,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-08-26T09:35:20Z) - Semi-Perspective Decoupled Heatmaps for 3D Robot Pose Estimation from
Depth Maps [66.24554680709417]
協調環境における労働者とロボットの正確な3D位置を知ることは、いくつかの実際のアプリケーションを可能にする。
本研究では、深度デバイスと深度ニューラルネットワークに基づく非侵襲的なフレームワークを提案し、外部カメラからロボットの3次元ポーズを推定する。
論文 参考訳(メタデータ) (2022-07-06T08:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。