論文の概要: UAVScenes: A Multi-Modal Dataset for UAVs
- arxiv url: http://arxiv.org/abs/2507.22412v1
- Date: Wed, 30 Jul 2025 06:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.030783
- Title: UAVScenes: A Multi-Modal Dataset for UAVs
- Title(参考訳): UAVScenes:UAVのためのマルチモーダルデータセット
- Authors: Sijie Wang, Siqi Li, Yawei Zhang, Shangshu Yu, Shenghai Yuan, Rui She, Quanjiang Guo, JinXuan Zheng, Ong Kang Howe, Leonrich Chandra, Shrivarshann Srijeyan, Aditya Sivadas, Toshan Aggarwal, Heyuan Liu, Hongming Zhang, Chujie Chen, Junyu Jiang, Lihua Xie, Wee Peng Tay,
- Abstract要約: UAVScenesは2Dと3Dの両方のモードでさまざまなタスクをベンチマークするために設計された大規模なデータセットである。
我々は、フレームワイド画像とLiDARポイントクラウドの両方に対して、手動でラベル付けされたセマンティックアノテーションを提供することにより、このデータセットを強化する。
これらの追加により、セグメンテーション、深さ推定、6-DoFローカライゼーション、位置認識、新しいビュー合成など、幅広いUAV認識タスクが可能になる。
- 参考スコア(独自算出の注目度): 45.752766099526525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal perception is essential for unmanned aerial vehicle (UAV) operations, as it enables a comprehensive understanding of the UAVs' surrounding environment. However, most existing multi-modal UAV datasets are primarily biased toward localization and 3D reconstruction tasks, or only support map-level semantic segmentation due to the lack of frame-wise annotations for both camera images and LiDAR point clouds. This limitation prevents them from being used for high-level scene understanding tasks. To address this gap and advance multi-modal UAV perception, we introduce UAVScenes, a large-scale dataset designed to benchmark various tasks across both 2D and 3D modalities. Our benchmark dataset is built upon the well-calibrated multi-modal UAV dataset MARS-LVIG, originally developed only for simultaneous localization and mapping (SLAM). We enhance this dataset by providing manually labeled semantic annotations for both frame-wise images and LiDAR point clouds, along with accurate 6-degree-of-freedom (6-DoF) poses. These additions enable a wide range of UAV perception tasks, including segmentation, depth estimation, 6-DoF localization, place recognition, and novel view synthesis (NVS). Our dataset is available at https://github.com/sijieaaa/UAVScenes
- Abstract(参考訳): 無人航空機(UAV)の運用においては、UAVの周囲環境の総合的な理解を可能にするため、マルチモーダルな認識が不可欠である。
しかし、既存の多くのマルチモーダルUAVデータセットは、主にローカライゼーションと3D再構成タスクに偏っているか、あるいはカメライメージとLiDARポイントクラウドの両方に対するフレームワイドアノテーションが欠如しているため、マップレベルのセマンティックセマンティックセマンティックセグメンテーションしかサポートしていない。
この制限により、ハイレベルなシーン理解タスクに使用できない。
このギャップに対処し、マルチモーダルなUAV知覚を促進するために、2Dと3Dの両モードで様々なタスクをベンチマークするために設計された大規模データセットであるUAVScenesを導入する。
ベンチマークデータセットは,高度に校正されたマルチモーダルUAVデータセットMARS-LVIGに基づいて構築された。
フレームワイズ画像とLiDARポイントクラウドの両方に対して手動でラベル付けされたセマンティックアノテーションと、正確な6自由度(6-DoF)ポーズを提供することで、このデータセットを強化する。
これらの追加により、セグメンテーション、深さ推定、6-DoFローカライゼーション、位置認識、新しいビュー合成(NVS)など、幅広いUAV認識タスクが可能になる。
私たちのデータセットはhttps://github.com/sijieaaa/UAVScenesで公開されています。
関連論文リスト
- Exploring the best way for UAV visual localization under Low-altitude Multi-view Observation Condition: a Benchmark [6.693781685584959]
高度の低い多視点UAV AVLは、極端な視点の変化による大きな課題を提示する。
このベンチマークでは、低高度多視点UAV AVLの課題を明らかにし、将来の研究に貴重なガイダンスを提供した。
論文 参考訳(メタデータ) (2025-03-12T03:29:27Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - UAVDB: Point-Guided Masks for UAV Detection and Segmentation [0.03464344220266879]
UAVの検出とセグメンテーションのための新しいベンチマークデータセットであるUAVDBを提案する。
ポイント誘導の弱い監視パイプライン上に構築されている。
UAVDBは、可視オブジェクトからほぼ1ピクセルのインスタンスまで、さまざまなスケールでUAVをキャプチャする。
論文 参考訳(メタデータ) (2024-09-09T13:27:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - UAV-VisLoc: A Large-scale Dataset for UAV Visual Localization [20.37586403749362]
大規模なUAV-VisLocデータセットを提示し、UAV視覚的ローカライゼーション作業を容易にする。
われわれのデータセットには6,742枚のドローン画像と11個の衛星マップが含まれており、緯度、経度、高度、捕獲日などのメタデータがある。
論文 参考訳(メタデータ) (2024-05-20T10:24:10Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - UAVStereo: A Multiple Resolution Dataset for Stereo Matching in UAV
Scenarios [0.6524460254566905]
本稿では,UAVStereoと呼ばれる多解像度UAVシナリオデータセットを構築し,34k以上のステレオ画像ペアが3つの典型的なシーンをカバーしている。
本稿では,UAVシナリオにおける課題に対処する際の限界を明らかにするとともに,従来型および最先端のディープラーニング手法の評価を行う。
論文 参考訳(メタデータ) (2023-02-20T16:45:27Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。