Fugu-MT 論文翻訳(概要): BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy

論文の概要: BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy

arxiv url: http://arxiv.org/abs/2305.16829v2
Date: Thu, 11 Jan 2024 03:13:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 04:06:46.869120
Title: BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy
Title（参考訳）: BEV-IO: インスタンス操作による鳥のEye-View 3D検出の強化
Authors: Zaibin Zhang, Yuanhang Zhang, Lijun Wang, Yifan Wang, Huchuan Lu
Abstract要約: 我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。 BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 58.92659367605442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A popular approach for constructing bird's-eye-view (BEV) representation in 3D detection is to lift 2D image features onto the viewing frustum space based on explicitly predicted depth distribution. However, depth distribution can only characterize the 3D geometry of visible object surfaces but fails to capture their internal space and overall geometric structure, leading to sparse and unsatisfactory 3D representations. To mitigate this issue, we present BEV-IO, a new 3D detection paradigm to enhance BEV representation with instance occupancy information. At the core of our method is the newly-designed instance occupancy prediction (IOP) module, which aims to infer point-level occupancy status for each instance in the frustum space. To ensure training efficiency while maintaining representational flexibility, it is trained using the combination of both explicit and implicit supervision. With the predicted occupancy, we further design a geometry-aware feature propagation mechanism (GFP), which performs self-attention based on occupancy distribution along each ray in frustum and is able to enforce instance-level feature consistency. By integrating the IOP module with GFP mechanism, our BEV-IO detector is able to render highly informative 3D scene structures with more comprehensive BEV representations. Experimental results demonstrate that BEV-IO can outperform state-of-the-art methods while only adding a negligible increase in parameters (0.2%) and computational overhead (0.24%in GFLOPs).
Abstract（参考訳）: 鳥の目視(BEV)表現を3次元検出で構築するための一般的なアプローチは、明示的に予測された深度分布に基づいて2次元画像特徴を視野に持ち上げることである。しかし、深度分布は、可視物体表面の3次元幾何学のみを特徴付けることができるが、内部空間と全体幾何学構造を捉えることができず、スパースで不満足な3次元表現をもたらす。この問題を軽減するために,BEV-IOという新たな3次元検出パラダイムを提案する。提案手法のコアとなるのは,新たに設計されたインスタンス占有予測(IOP)モジュールである。表現の柔軟性を維持しながらトレーニング効率を確保するため、明示的および暗黙的な監督の組み合わせを用いてトレーニングされる。予測された占有率を用いて,各光線に沿う占有分布に基づいて自己注意を行い,インスタンスレベルの特徴整合性を実現するような特徴伝搬機構 (GFP) をさらに設計する。 IOPモジュールとGFP機構を統合することで,BEV-IO検出器はより包括的なBEV表現を持つ高情報な3Dシーン構造を描画することができる。実験結果から,BEV-IOはパラメータの無視的な増加(0.2%)と計算オーバーヘッド(0.24%のGFLOPs)しか加えず,最先端の手法より優れていることが示された。

関連論文リスト

RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。 RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文参考訳（メタデータ） (2024-12-17T09:47:48Z)
Lightweight Spatial Embedding for Vision-based 3D Occupancy Prediction [37.8001844396061]
LightOccは、軽量空間埋め込みを利用する革新的な3D占有予測フレームワークである。 LightOccはベースラインの予測精度を大幅に向上させ、Occ3D-nuScenesベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-08T15:49:35Z)
LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文参考訳（メタデータ） (2024-11-09T13:03:54Z)
GeoBEV: Learning Geometric BEV Representation for Multi-view 3D Object Detection [36.245654685143016]
Bird's-Eye-View (BEV)表現は、マルチビュー3Dオブジェクト検出の主流パラダイムとして登場した。既存の方法では、BEV表現の幾何学的品質を見落とし、低分解能状態に置かれている。
論文参考訳（メタデータ） (2024-09-03T11:57:36Z)
Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文参考訳（メタデータ） (2023-12-13T09:24:42Z)
LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文参考訳（メタデータ） (2023-04-04T04:05:56Z)
BSH-Det3D: Improving 3D Object Detection with BEV Shape Heatmap [10.060577111347152]
我々は,BSH-Det3Dという新しいLiDARベースの3Dオブジェクト検出モデルを提案する。鳥の視線から完全な形状を推定することにより、空間的特徴を高める効果的な方法を適用する。 KITTIベンチマークの実験は、精度と速度の観点から最先端(SOTA)性能を達成する。
論文参考訳（メタデータ） (2023-03-03T15:13:11Z)
OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文参考訳（メタデータ） (2023-01-13T06:02:31Z)
M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。 M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文参考訳（メタデータ） (2022-04-11T13:43:25Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)
Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文参考訳（メタデータ） (2020-08-31T17:10:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。