論文の概要: InstanceBEV: Unifying Instance and BEV Representation for Global Modeling
- arxiv url: http://arxiv.org/abs/2505.13817v1
- Date: Tue, 20 May 2025 01:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.594043
- Title: InstanceBEV: Unifying Instance and BEV Representation for Global Modeling
- Title(参考訳): InstanceBEV:グローバルモデリングのためのインスタンスとBEV表現の統合
- Authors: Feng Li, Kun Xu, Zhaoyue Wang, Yunduan Cui, Mohammad Masum Billah, Jia Liu,
- Abstract要約: Occupancy Grid Mapsは3D空間占有率を表すためにナビゲーションに広く利用されている。
Bird's-Eye View (BEV) の視点は、自動運転のためのより実用的なソリューションを提供する。
本稿では,BEV のインスタンスレベル次元削減手法である InstanceBEV を提案する。
- 参考スコア(独自算出の注目度): 12.046822591946423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy Grid Maps are widely used in navigation for their ability to represent 3D space occupancy. However, existing methods that utilize multi-view cameras to construct Occupancy Networks for perception modeling suffer from cubic growth in data complexity. Adopting a Bird's-Eye View (BEV) perspective offers a more practical solution for autonomous driving, as it provides higher semantic density and mitigates complex object occlusions. Nonetheless, BEV-based approaches still require extensive engineering optimizations to enable efficient large-scale global modeling. To address this challenge, we propose InstanceBEV, the first method to introduce instance-level dimensionality reduction for BEV, enabling global modeling with transformers without relying on sparsification or acceleration operators. Different from other BEV methods, our approach directly employs transformers to aggregate global features. Compared to 3D object detection models, our method samples global feature maps into 3D space. Experiments on OpenOcc-NuScenes dataset show that InstanceBEV achieves state-of-the-art performance while maintaining a simple, efficient framework without requiring additional optimizations.
- Abstract(参考訳): Occupancy Grid Mapsは3D空間占有率を表すためにナビゲーションに広く利用されている。
しかし,マルチビューカメラを用いた知覚モデリングのためのOccupancy Networksの構築には,データの複雑さが3倍に増大する傾向にある。
Bird's-Eye View(BEV)の観点を採用することで、セマンティックな密度を高め、複雑なオブジェクトの閉塞を軽減できるため、自律運転のより実用的なソリューションが提供される。
それでも、BEVベースのアプローチでは、効率的な大規模グローバルモデリングを実現するために、広範なエンジニアリング最適化が必要である。
この課題に対処するため,BEV のインスタンスレベル次元削減手法である InstanceBEV を提案し,スペーシフィケーションやアクセラレーション演算子に依存することなく,トランスフォーマを用いたグローバルなモデリングを可能にする。
他のBEV手法とは異なり、我々の手法はトランスフォーマーを使ってグローバルな特徴を集約する。
3次元オブジェクト検出モデルと比較して,本手法はグローバルな特徴マップを3次元空間にサンプリングする。
OpenOcc-NuScenesデータセットの実験によると、InstanceBEVは、最適化を必要とせず、シンプルで効率的なフレームワークを維持しながら、最先端のパフォーマンスを達成する。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)は、よく構造化されたBEV表現を構成する新しい3Dオブジェクト検出フレームワークである。
nuScenesテストセットでは、EVTはリアルタイムの推論速度で75.3% NDSの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。