論文の概要: InstanceBEV: Unifying Instance and BEV Representation for 3D Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2505.13817v2
- Date: Tue, 23 Sep 2025 03:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 16:16:25.631507
- Title: InstanceBEV: Unifying Instance and BEV Representation for 3D Panoptic Segmentation
- Title(参考訳): InstanceBEV:3DパノプティカルセグメンテーションのためのインスタンスとBEV表現の統合
- Authors: Feng Li, Zhaoyue Wang, Enyuan Zhang, Mohammad Masum Billah, Yunduan Cui, Kun Xu,
- Abstract要約: BEVベースの3D知覚は、エンドツーエンドの自動運転における研究の焦点として現れている。
本稿では,マップ中心アプローチとオブジェクト中心アプローチの両長所を組み合わせた新しいモデリング手法であるInstanceBEVを提案する。
本手法は,BEV機能内のインスタンスレベルの特徴を効果的に抽出し,グローバルアテンションモデリングの実装を容易にする。
- 参考スコア(独自算出の注目度): 8.753189496432059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BEV-based 3D perception has emerged as a focal point of research in end-to-end autonomous driving. However, existing BEV approaches encounter significant challenges due to the large feature space, complicating efficient modeling and hindering effective integration of global attention mechanisms. We propose a novel modeling strategy, called InstanceBEV, that synergistically combines the strengths of both map-centric approaches and object-centric approaches. Our method effectively extracts instance-level features within the BEV features, facilitating the implementation of global attention modeling in a highly compressed feature space, thereby addressing the efficiency challenges inherent in map-centric global modeling. Furthermore, our approach enables effective multi-task learning without introducing additional module. We validate the efficiency and accuracy of the proposed model through predicting occupancy, achieving 3D occupancy panoptic segmentation by combining instance information. Experimental results on the OCC3D-nuScenes dataset demonstrate that InstanceBEV, utilizing only 8 frames, achieves a RayPQ of 15.3 and a RayIoU of 38.2. This surpasses SparseOcc's RayPQ by 9.3% and RayIoU by 10.7%, showcasing the effectiveness of multi-task synergy.
- Abstract(参考訳): BEVベースの3D知覚は、エンドツーエンドの自動運転における研究の焦点として現れている。
しかし、既存のBEVアプローチは、効率的なモデリングを複雑にし、グローバルアテンション機構の効果的な統合を妨げる、大きな特徴空間のため、重大な課題に直面している。
本稿では,マップ中心アプローチとオブジェクト中心アプローチの両方の長所を相乗的に組み合わせた新しいモデリング戦略であるInstanceBEVを提案する。
提案手法は,BEV機能内のインスタンスレベルの特徴を効果的に抽出し,高度に圧縮された特徴空間におけるグローバルアテンションモデリングの実装を容易にし,地図中心のグローバルモデリングに固有の効率上の課題に対処する。
さらに,モジュールの追加を伴わずに効果的なマルチタスク学習を実現する。
提案モデルの有効性と精度を, 占有率の予測により検証し, インスタンス情報を組み合わせることで, 3次元占有率の分割を実現した。
OCC3D-nuScenesデータセットの実験結果によると、インスタンスBEVは8フレームしか利用せず、RayPQは15.3、RayIoUは38.2である。
これはSparseOccのRayPQを9.3%、RayIoUを10.7%上回り、マルチタスクのシナジーの有効性を示している。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)は、よく構造化されたBEV表現を構成する新しい3Dオブジェクト検出フレームワークである。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3% NDSの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。