論文の概要: Aerial Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2208.03974v1
- Date: Mon, 8 Aug 2022 08:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:28:12.249592
- Title: Aerial Monocular 3D Object Detection
- Title(参考訳): 空中モノクル3次元物体検出
- Authors: Yue Hu, Shaoheng Fang, Weidi Xie and Siheng Chen
- Abstract要約: 本研究は,2次元画像空間と3次元物理空間の両方において,空中単分子物体検出を実現するために,DVDETというデュアルビュー検出システムを提案する。
この課題に対処するため,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKによって収集されたAM3D-Realという新しい実世界の空中データセットを提案する。
- 参考スコア(独自算出の注目度): 46.26215100532241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drones equipped with cameras can significantly enhance human ability to
perceive the world because of their remarkable maneuverability in 3D space.
Ironically, object detection for drones has always been conducted in the 2D
image space, which fundamentally limits their ability to understand 3D scenes.
Furthermore, existing 3D object detection methods developed for autonomous
driving cannot be directly applied to drones due to the lack of deformation
modeling, which is essential for the distant aerial perspective with sensitive
distortion and small objects. To fill the gap, this work proposes a dual-view
detection system named DVDET to achieve aerial monocular object detection in
both the 2D image space and the 3D physical space. To address the severe view
deformation issue, we propose a novel trainable geo-deformable transformation
module that can properly warp information from the drone's perspective to the
BEV. Compared to the monocular methods for cars, our transformation includes a
learnable deformable network for explicitly revising the severe deviation. To
address the dataset challenge, we propose a new large-scale simulation dataset
named AM3D-Sim, generated by the co-simulation of AirSIM and CARLA, and a new
real-world aerial dataset named AM3D-Real, collected by DJI Matrice 300 RTK, in
both datasets, high-quality annotations for 3D object detection are provided.
Extensive experiments show that i) aerial monocular 3D object detection is
feasible; ii) the model pre-trained on the simulation dataset benefits
real-world performance, and iii) DVDET also benefits monocular 3D object
detection for cars. To encourage more researchers to investigate this area, we
will release the dataset and related code in
https://sjtu-magic.github.io/dataset/AM3D/.
- Abstract(参考訳): カメラを装備したドローンは、3D空間における顕著な操作性のために、人間の世界知覚能力を大幅に向上させることができる。
皮肉なことに、ドローンの物体検出は常に2D画像空間で行われており、3Dシーンを理解する能力は基本的に制限されている。
さらに、自律運転のために開発された既存の3次元物体検出手法は、変形モデリングが欠如しているため、ドローンに直接適用することはできない。
このギャップを埋めるために,2次元画像空間と3次元物理空間の両方において空中モノクロ物体検出を実現するため,dvdetというデュアルビュー検出システムを提案する。
重度の視野変形問題に対処するため,我々は,ドローンの視点からbevに情報を適切に伝達できる,新しい訓練可能なジオ変形可能な変換モジュールを提案する。
自動車の単眼的手法と比較すると,本変換は,重度の偏差を明示的に修正するための学習可能な変形可能なネットワークを含む。
この課題に対処するために,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKが収集したAM3D-Realという新しい実世界の空中データセットを提案する。
大規模な実験は
一 空中の単眼的3次元物体検出が可能なこと。
二 シミュレーションデータセットに事前訓練されたモデルは、実世界のパフォーマンスを享受し、
iii) dvdetは自動車のモノクロ3dオブジェクト検出にも有用である。
この領域を調査するために、私たちはデータセットと関連するコードをhttps://sjtu-magic.github.io/dataset/am3d/でリリースします。
関連論文リスト
- HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object
Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) [68.12101204123422]
点雲は3次元座標における空間データの密集したコンパイルである。
我々は3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:36:39Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。