論文の概要: BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
- arxiv url: http://arxiv.org/abs/2305.16829v2
- Date: Thu, 11 Jan 2024 03:13:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 04:06:46.869120
- Title: BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
- Title(参考訳): BEV-IO: インスタンス操作による鳥のEye-View 3D検出の強化
- Authors: Zaibin Zhang, Yuanhang Zhang, Lijun Wang, Yifan Wang, Huchuan Lu
- Abstract要約: 我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 58.92659367605442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular approach for constructing bird's-eye-view (BEV) representation in
3D detection is to lift 2D image features onto the viewing frustum space based
on explicitly predicted depth distribution. However, depth distribution can
only characterize the 3D geometry of visible object surfaces but fails to
capture their internal space and overall geometric structure, leading to sparse
and unsatisfactory 3D representations. To mitigate this issue, we present
BEV-IO, a new 3D detection paradigm to enhance BEV representation with instance
occupancy information. At the core of our method is the newly-designed instance
occupancy prediction (IOP) module, which aims to infer point-level occupancy
status for each instance in the frustum space. To ensure training efficiency
while maintaining representational flexibility, it is trained using the
combination of both explicit and implicit supervision. With the predicted
occupancy, we further design a geometry-aware feature propagation mechanism
(GFP), which performs self-attention based on occupancy distribution along each
ray in frustum and is able to enforce instance-level feature consistency. By
integrating the IOP module with GFP mechanism, our BEV-IO detector is able to
render highly informative 3D scene structures with more comprehensive BEV
representations. Experimental results demonstrate that BEV-IO can outperform
state-of-the-art methods while only adding a negligible increase in parameters
(0.2%) and computational overhead (0.24%in GFLOPs).
- Abstract(参考訳): 鳥の目視(BEV)表現を3次元検出で構築するための一般的なアプローチは、明示的に予測された深度分布に基づいて2次元画像特徴を視野に持ち上げることである。
しかし、深度分布は、可視物体表面の3次元幾何学のみを特徴付けることができるが、内部空間と全体幾何学構造を捉えることができず、スパースで不満足な3次元表現をもたらす。
この問題を軽減するために,BEV-IOという新たな3次元検出パラダイムを提案する。
提案手法のコアとなるのは,新たに設計されたインスタンス占有予測(IOP)モジュールである。
表現の柔軟性を維持しながらトレーニング効率を確保するため、明示的および暗黙的な監督の組み合わせを用いてトレーニングされる。
予測された占有率を用いて,各光線に沿う占有分布に基づいて自己注意を行い,インスタンスレベルの特徴整合性を実現するような特徴伝搬機構 (GFP) をさらに設計する。
IOPモジュールとGFP機構を統合することで,BEV-IO検出器はより包括的なBEV表現を持つ高情報な3Dシーン構造を描画することができる。
実験結果から,BEV-IOはパラメータの無視的な増加(0.2%)と計算オーバーヘッド(0.24%のGFLOPs)しか加えず,最先端の手法より優れていることが示された。
関連論文リスト
- GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。
既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文 参考訳(メタデータ) (2024-09-03T11:57:36Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - BSH-Det3D: Improving 3D Object Detection with BEV Shape Heatmap [10.060577111347152]
我々は,BSH-Det3Dという新しいLiDARベースの3Dオブジェクト検出モデルを提案する。
鳥の視線から完全な形状を推定することにより、空間的特徴を高める効果的な方法を適用する。
KITTIベンチマークの実験は、精度と速度の観点から最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2023-03-03T15:13:11Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。