論文の概要: LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation
- arxiv url: http://arxiv.org/abs/2304.01519v1
- Date: Tue, 4 Apr 2023 04:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:12:13.813421
- Title: LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation
- Title(参考訳): ハイブリッド2次元シーン生成によるLiDARに基づく3次元物体検出
- Authors: Haitao Yang, Zaiwei Zhang, Xiangru Huang, Min Bai, Chen Song, Bo Sun,
Li Erran Li, Qixing Huang
- Abstract要約: 本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
- 参考スコア(独自算出の注目度): 38.38852904444365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bird's-Eye View (BEV) features are popular intermediate scene representations
shared by the 3D backbone and the detector head in LiDAR-based object
detectors. However, little research has been done to investigate how to
incorporate additional supervision on the BEV features to improve proposal
generation in the detector head, while still balancing the number of powerful
3D layers and efficient 2D network operations. This paper proposes a novel
scene representation that encodes both the semantics and geometry of the 3D
environment in 2D, which serves as a dense supervision signal for better BEV
feature learning. The key idea is to use auxiliary networks to predict a
combination of explicit and implicit semantic probabilities by exploiting their
complementary properties. Extensive experiments show that our simple yet
effective design can be easily integrated into most state-of-the-art 3D object
detectors and consistently improves upon baseline models.
- Abstract(参考訳): Bird's-Eye View (BEV) は、LiDARベースの物体検出器で3Dバックボーンと検出器ヘッドによって共有される一般的な中間シーン表現である。
しかし、検出器ヘッドにおける提案生成を改善するため、BEV機能のさらなる監視を組み込むための研究はほとんど行われていないが、強力な3D層の数と効率的な2Dネットワーク操作のバランスは保たれている。
本稿では,BEV特徴学習のための高密度監視信号として機能する2次元環境のセマンティクスと幾何学の両方を符号化した新しいシーン表現を提案する。
鍵となる考え方は、補助的ネットワークを使用して、それらの相補的特性を利用して、明示的および暗黙的な意味的確率の組み合わせを予測することである。
広範な実験により、我々のシンプルで効果的な設計は、最先端の3dオブジェクト検出器に容易に統合でき、ベースラインモデルで一貫して改善できることが示された。
関連論文リスト
- GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - Pillar R-CNN for Point Cloud 3D Object Detection [4.169126928311421]
我々はPillar R-CNNという概念的にシンプルで効果的な2段階の3D検出アーキテクチャを考案した。
我々のPillar R-CNNは、大規模Openデータセット上の最先端の3D検出器に対して好意的に動作します。
自律運転を含むアプリケーションに対するBEVのさらなる認識は、効果的でエレガントなPillar R-CNNアーキテクチャのおかげで可能になった。
論文 参考訳(メタデータ) (2023-02-26T12:07:25Z) - AOP-Net: All-in-One Perception Network for Joint LiDAR-based 3D Object
Detection and Panoptic Segmentation [9.513467995188634]
AOP-NetはLiDARベースのマルチタスクフレームワークで、3Dオブジェクトの検出とパノプティクスのセグメンテーションを組み合わせたものである。
AOP-Netは、nuScenesベンチマークにおける3Dオブジェクト検出とパノプティクスセグメンテーションの両タスクについて、最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-02T05:31:53Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。