論文の概要: UAV-MM3D: A Large-Scale Synthetic Benchmark for 3D Perception of Unmanned Aerial Vehicles with Multi-Modal Data
- arxiv url: http://arxiv.org/abs/2511.22404v1
- Date: Thu, 27 Nov 2025 12:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.561651
- Title: UAV-MM3D: A Large-Scale Synthetic Benchmark for 3D Perception of Unmanned Aerial Vehicles with Multi-Modal Data
- Title(参考訳): UAV-MM3D:マルチモーダルデータを用いた無人航空機の3次元知覚のための大規模合成ベンチマーク
- Authors: Longkun Zou, Jiale Wang, Rongqin Liang, Hai Wu, Ke Chen, Yaowei Wang,
- Abstract要約: UAV-MM3Dは,低高度UAV知覚と動作理解のための多モード合成データセットである。
様々なシーン(都市部、郊外部、森林部、沿岸部)と気象条件にまたがる400Kの同期フレームで構成されている。
各フレームは2D/3Dバウンディングボックス、6-DoFのポーズ、インスタンスレベルのアノテーションを提供し、3D検出、ポーズ推定、ターゲット追跡、短期軌道予測などのUAVに関連するコアタスクを可能にする。
- 参考スコア(独自算出の注目度): 47.317955428393134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate perception of UAVs in complex low-altitude environments is critical for airspace security and related intelligent systems. Developing reliable solutions requires large-scale, accurately annotated, and multimodal data. However, real-world UAV data collection faces inherent constraints due to airspace regulations, privacy concerns, and environmental variability, while manual annotation of 3D poses and cross-modal correspondences is time-consuming and costly. To overcome these challenges, we introduce UAV-MM3D, a high-fidelity multimodal synthetic dataset for low-altitude UAV perception and motion understanding. It comprises 400K synchronized frames across diverse scenes (urban areas, suburbs, forests, coastal regions) and weather conditions (clear, cloudy, rainy, foggy), featuring multiple UAV models (micro, small, medium-sized) and five modalities - RGB, IR, LiDAR, Radar, and DVS (Dynamic Vision Sensor). Each frame provides 2D/3D bounding boxes, 6-DoF poses, and instance-level annotations, enabling core tasks related to UAVs such as 3D detection, pose estimation, target tracking, and short-term trajectory forecasting. We further propose LGFusionNet, a LiDAR-guided multimodal fusion baseline, and a dedicated UAV trajectory prediction baseline to facilitate benchmarking. With its controllable simulation environment, comprehensive scenario coverage, and rich annotations, UAV3D offers a public benchmark for advancing 3D perception of UAVs.
- Abstract(参考訳): 複雑な低高度環境でのUAVの正確な認識は、航空宇宙のセキュリティや関連する知的システムにとって重要である。
信頼性の高いソリューションを開発するには、大規模で正確に注釈付けされたマルチモーダルデータが必要である。
しかし、現実のUAVデータ収集は、空域規制、プライバシーの懸念、環境変動などによる固有の制約に直面している。
これらの課題を克服するために,低高度UAV知覚と動作理解のための高忠実多モード合成データセットUAV-MM3Dを導入する。
様々なシーン(都市、郊外、森林、海岸地域)と気象条件(澄んだ、曇り、雨、霧)に400Kの同期フレームがあり、複数のUAVモデル(ミクロ、小型、中規模)とRGB、IR、LiDAR、レーダー、DVS(Dynamic Vision Sensor)の5つのモードがある。
各フレームは2D/3Dバウンディングボックス、6-DoFのポーズ、インスタンスレベルのアノテーションを提供し、3D検出、ポーズ推定、ターゲット追跡、短期軌道予測などのUAVに関連するコアタスクを可能にする。
さらに,LGFusionNet,LiDAR誘導多モード核融合ベースライン,およびベンチマークを容易にする専用のUAV軌道予測ベースラインを提案する。
制御可能なシミュレーション環境、包括的なシナリオカバレッジ、リッチアノテーションにより、UAV3DはUAVの3D知覚を促進するための公開ベンチマークを提供する。
関連論文リスト
- A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - FlyAwareV2: A Multimodal Cross-Domain UAV Dataset for Urban Scene Understanding [14.353064152003867]
FlyAwareV2は、都市景観理解タスクに適した、実際のUAV画像と合成UAV画像の両方を含む、新しいデータセットである。
最近導入されたSynDroneとFlyAwareデータセットに基づいて、FlyAwareV2はいくつかの重要なコントリビューションを導入した。
アノテーションの豊富なセットと環境多様性により、FlyAwareV2はUAVベースの都市景観理解の研究に貴重な資源を提供する。
論文 参考訳(メタデータ) (2025-10-15T07:44:31Z) - NOVA: Navigation via Object-Centric Visual Autonomy for High-Speed Target Tracking in Unstructured GPS-Denied Environments [56.35569661650558]
我々はNOVAというオブジェクト中心のフレームワークを導入し、ロバストな目標追跡と衝突認識ナビゲーションを可能にした。
グローバルマップを構築するのではなく、NOVAはターゲットの参照フレーム内での知覚、推定、制御を定式化する。
我々は,都市迷路や森林の小道,間欠的なGPS損失を伴う建物内の繰り返し遷移など,現実の挑戦的なシナリオにまたがってNOVAを検証する。
論文 参考訳(メタデータ) (2025-06-23T14:28:30Z) - UAV3D: A Large-scale 3D Perception Benchmark for Unmanned Aerial Vehicles [12.278437831053985]
無人航空機(UAV)は、航空写真、監視、農業など多くの用途で使用されている。
UAVアプリケーションの既存のベンチマークは、主に従来の2D認識タスクのために設計されている。
UAV3Dは1000のシーンで構成され、それぞれに20のフレームと完全な注釈付き3Dバウンディングボックスがある。
論文 参考訳(メタデータ) (2024-10-14T22:24:11Z) - Clustering-based Learning for UAV Tracking and Pose Estimation [0.0]
本研究は,UAV追跡と2種類のLiDARを用いたポーズ推定のためのクラスタリングに基づく学習検出手法であるCL-Detを開発する。
まず、Livox AviaデータとLiDAR 360データのタイムスタンプを調整し、その後、関心のあるオブジェクト(OOI)のポイントクラウドを環境から分離します。
提案手法は,CVPR 2024 UG2+ Challengeの最終リーダーボードにおいて,競争力のあるポーズ推定性能を示し,第5位にランクインする。
論文 参考訳(メタデータ) (2024-05-27T06:33:25Z) - Fully Convolutional One-Stage 3D Object Detection on LiDAR Range Images [96.66271207089096]
FCOS-LiDARは、自律走行シーンのLiDAR点雲のための完全な1段式3Dオブジェクト検出器である。
標準的な2Dコンボリューションを持つRVベースの3D検出器は、最先端のBEVベースの検出器と同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-05-27T05:42:16Z) - A Multi-UAV System for Exploration and Target Finding in Cluttered and
GPS-Denied Environments [68.31522961125589]
複雑なGPSを用いた複雑な環境において,UAVのチームが協調して目標を探索し,発見するための枠組みを提案する。
UAVのチームは自律的にナビゲートし、探索し、検出し、既知の地図で散らばった環境でターゲットを見つける。
その結果, 提案方式は, 時間的コスト, 調査対象地域の割合, 捜索・救助ミッションの成功率などの面で改善されていることがわかった。
論文 参考訳(メタデータ) (2021-07-19T12:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。