論文の概要: From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection
- arxiv url: http://arxiv.org/abs/2107.14391v1
- Date: Fri, 30 Jul 2021 02:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:02:56.100101
- Title: From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object
Detection
- Title(参考訳): マルチビューからホロウ3dへ:3次元物体検出のための幻覚的ホロウ3d r-cnn
- Authors: Jiajun Deng, Wengang Zhou, Yanyong Zhang, and Houqiang Li
- Abstract要約: 本稿では,3次元物体検出の問題に対処するため,Halucinated Hollow-3D R-CNNという新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
3Dオブジェクトは、新しい階層型Voxel RoIプール操作でボックスリファインメントモジュールを介して検出される。
- 参考スコア(独自算出の注目度): 101.20784125067559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging data modal with precise distance sensing, LiDAR point clouds
have been placed great expectations on 3D scene understanding. However, point
clouds are always sparsely distributed in the 3D space, and with unstructured
storage, which makes it difficult to represent them for effective 3D object
detection. To this end, in this work, we regard point clouds as hollow-3D data
and propose a new architecture, namely Hallucinated Hollow-3D R-CNN
($\text{H}^2$3D R-CNN), to address the problem of 3D object detection. In our
approach, we first extract the multi-view features by sequentially projecting
the point clouds into the perspective view and the bird-eye view. Then, we
hallucinate the 3D representation by a novel bilaterally guided multi-view
fusion block. Finally, the 3D objects are detected via a box refinement module
with a novel Hierarchical Voxel RoI Pooling operation. The proposed
$\text{H}^2$3D R-CNN provides a new angle to take full advantage of
complementary information in the perspective view and the bird-eye view with an
efficient framework. We evaluate our approach on the public KITTI Dataset and
Waymo Open Dataset. Extensive experiments demonstrate the superiority of our
method over the state-of-the-art algorithms with respect to both effectiveness
and efficiency. The code will be made available at
\url{https://github.com/djiajunustc/H-23D_R-CNN}.
- Abstract(参考訳): 正確な距離センシングを伴う新たなデータモダルとして、LiDAR点雲は3Dシーン理解に大いに期待されている。
しかし、点雲は常に3D空間に分散しており、非構造化ストレージであるため、効果的な3Dオブジェクト検出のためにそれらを表現することは困難である。
そこで本研究では,点雲を中空3次元データとみなし,Halucinated Hollow-3D R-CNN ("\text{H}^2$3D R-CNN") という新しいアーキテクチャを提案する。
本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。
そこで我々は,新しい多視点融合ブロックにより3次元表現を幻覚させる。
最後に、新たな階層型voxelroiプーリング操作を備えたボックスリファインメントモジュールを介して3dオブジェクトを検出する。
提案した$\text{H}^2$3D R-CNNは、視点ビューと効率的なフレームワークによる鳥眼ビューの相補的な情報を完全に活用するための新しいアングルを提供する。
我々は、パブリックなKITTIデータセットとWaymo Open Datasetに対するアプローチを評価した。
実験により,本手法が最先端のアルゴリズムよりも有効性および効率性に優れていることを示した。
コードは \url{https://github.com/djiajunustc/h-23d_r-cnn} で入手できる。
関連論文リスト
- SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection [19.75965521357068]
本稿では,SOGDet(Semantic-Occupancy Guided Multi-view Object Detection)と呼ばれる新しい手法を提案する。
以上の結果から,SOGDet は nuScenes Detection Score (NDS) と平均平均精度 (mAP) の3つのベースライン法の性能を一貫して向上させることがわかった。
これは、3Dオブジェクト検出と3Dセマンティック占有の組み合わせが、3D環境をより包括的に認識し、より堅牢な自律運転システムの構築を支援することを示唆している。
論文 参考訳(メタデータ) (2023-08-26T07:38:21Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection [85.08249413137558]
LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。
小さい、遠く、不完全な点の少ない物体は、しばしば検出するのが困難である。
Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。
論文 参考訳(メタデータ) (2022-11-23T16:01:06Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Voint Cloud: Multi-View Point Cloud Representation for 3D Understanding [80.04281842702294]
本稿では,複数の視点から抽出した特徴の集合として,各3次元点を表す多視点クラウド(Voint Cloud)の概念を紹介する。
この新しい3次元Vointクラウド表現は、3Dポイントクラウド表現のコンパクト性と、マルチビュー表現の自然なビュー認識性を組み合わせたものである。
理論的に確立された機能を持つVointニューラルネットワーク(VointNet)をデプロイし,Voint空間の表現を学習する。
論文 参考訳(メタデータ) (2021-11-30T13:08:19Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z) - RTM3D: Real-time Monocular 3D Detection from Object Keypoints for
Autonomous Driving [26.216609821525676]
最も成功した3D検出器は、3Dバウンディングボックスから2Dボックスへの投射制約を重要な構成要素としている。
画像空間における3次元境界ボックスの9つの視点キーポイントを予測し、3次元空間における3次元視点と2次元視点の幾何学的関係を利用して、次元、位置、方向を復元する。
提案手法は,KITTIベンチマークの最先端性能を達成しつつ,モノクロ画像の3次元検出を行う最初のリアルタイムシステムである。
論文 参考訳(メタデータ) (2020-01-10T08:29:20Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。