論文の概要: Aerial Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2208.03974v2
- Date: Mon, 20 Jan 2025 18:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:52:39.084111
- Title: Aerial Monocular 3D Object Detection
- Title(参考訳): 空中モノクル3次元物体検出
- Authors: Yue Hu, Shaoheng Fang, Weidi Xie, Siheng Chen,
- Abstract要約: DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
- 参考スコア(独自算出の注目度): 67.20369963664314
- License:
- Abstract: Drones equipped with cameras can significantly enhance human ability to perceive the world because of their remarkable maneuverability in 3D space. Ironically, object detection for drones has always been conducted in the 2D image space, which fundamentally limits their ability to understand 3D scenes. Furthermore, existing 3D object detection methods developed for autonomous driving cannot be directly applied to drones due to the lack of deformation modeling, which is essential for the distant aerial perspective with sensitive distortion and small objects. To fill the gap, this work proposes a dual-view detection system named DVDET to achieve aerial monocular object detection in both the 2D image space and the 3D physical space. To address the severe view deformation issue, we propose a novel trainable geo-deformable transformation module that can properly warp information from the drone's perspective to the BEV. Compared to the monocular methods for cars, our transformation includes a learnable deformable network for explicitly revising the severe deviation. To address the dataset challenge, we propose a new large-scale simulation dataset named AM3D-Sim, generated by the co-simulation of AirSIM and CARLA, and a new real-world aerial dataset named AM3D-Real, collected by DJI Matrice 300 RTK, in both datasets, high-quality annotations for 3D object detection are provided. Extensive experiments show that i) aerial monocular 3D object detection is feasible; ii) the model pre-trained on the simulation dataset benefits real-world performance, and iii) DVDET also benefits monocular 3D object detection for cars. To encourage more researchers to investigate this area, we will release the dataset and related code in https://github.com/PhyllisH/DVDET.
- Abstract(参考訳): カメラを装備したドローンは、3D空間における顕著な操作性のために、人間の世界知覚能力を大幅に向上させることができる。
皮肉なことに、ドローンの物体検出は常に2D画像空間で行われており、3Dシーンを理解する能力は基本的に制限されている。
さらに, 自律走行のために開発された既存の3次元物体検出法は, 変形モデリングの欠如によりドローンに直接適用できない。
このギャップを埋めるために,2次元画像空間と3次元物理空間の両方において空中単分子物体検出を実現するために,DVDETというデュアルビュー検出システムを提案する。
高度視差変形問題に対処するため,無人機からBEVへ情報を適切にワープ可能な,トレーニング可能なジオデフォルマブルトランスフォーメーションモジュールを提案する。
車両の単分子法と比較して、当社の変換には、厳密な偏差を明示的に修正するための学習可能な変形可能なネットワークが含まれています。
この課題に対処するために,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKが収集したAM3D-Realという新しい実世界の空中データセットを提案する。
大規模な実験は
一 空中単眼の立体物検出が可能であること。
二 シミュレーションデータセットに事前訓練されたモデルは、実世界のパフォーマンスを享受し、
三 DVDETは、自動車のモノクル3Dオブジェクト検出にも有用である。
より多くの研究者がこの領域について調査することを奨励するため、データセットと関連するコードをhttps://github.com/PhyllisH/DVDET.comに公開します。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。