論文の概要: InstanceBEV: Unifying Instance and BEV Representation for Global Modeling
- arxiv url: http://arxiv.org/abs/2505.13817v1
- Date: Tue, 20 May 2025 01:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.594043
- Title: InstanceBEV: Unifying Instance and BEV Representation for Global Modeling
- Title(参考訳): InstanceBEV:グローバルモデリングのためのインスタンスとBEV表現の統合
- Authors: Feng Li, Kun Xu, Zhaoyue Wang, Yunduan Cui, Mohammad Masum Billah, Jia Liu,
- Abstract要約: Occupancy Grid Mapsは3D空間占有率を表すためにナビゲーションに広く利用されている。
Bird's-Eye View (BEV) の視点は、自動運転のためのより実用的なソリューションを提供する。
本稿では,BEV のインスタンスレベル次元削減手法である InstanceBEV を提案する。
- 参考スコア(独自算出の注目度): 12.046822591946423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy Grid Maps are widely used in navigation for their ability to represent 3D space occupancy. However, existing methods that utilize multi-view cameras to construct Occupancy Networks for perception modeling suffer from cubic growth in data complexity. Adopting a Bird's-Eye View (BEV) perspective offers a more practical solution for autonomous driving, as it provides higher semantic density and mitigates complex object occlusions. Nonetheless, BEV-based approaches still require extensive engineering optimizations to enable efficient large-scale global modeling. To address this challenge, we propose InstanceBEV, the first method to introduce instance-level dimensionality reduction for BEV, enabling global modeling with transformers without relying on sparsification or acceleration operators. Different from other BEV methods, our approach directly employs transformers to aggregate global features. Compared to 3D object detection models, our method samples global feature maps into 3D space. Experiments on OpenOcc-NuScenes dataset show that InstanceBEV achieves state-of-the-art performance while maintaining a simple, efficient framework without requiring additional optimizations.
- Abstract(参考訳): Occupancy Grid Mapsは3D空間占有率を表すためにナビゲーションに広く利用されている。
しかし,マルチビューカメラを用いた知覚モデリングのためのOccupancy Networksの構築には,データの複雑さが3倍に増大する傾向にある。
Bird's-Eye View(BEV)の観点を採用することで、セマンティックな密度を高め、複雑なオブジェクトの閉塞を軽減できるため、自律運転のより実用的なソリューションが提供される。
それでも、BEVベースのアプローチでは、効率的な大規模グローバルモデリングを実現するために、広範なエンジニアリング最適化が必要である。
この課題に対処するため,BEV のインスタンスレベル次元削減手法である InstanceBEV を提案し,スペーシフィケーションやアクセラレーション演算子に依存することなく,トランスフォーマを用いたグローバルなモデリングを可能にする。
他のBEV手法とは異なり、我々の手法はトランスフォーマーを使ってグローバルな特徴を集約する。
3次元オブジェクト検出モデルと比較して,本手法はグローバルな特徴マップを3次元空間にサンプリングする。
OpenOcc-NuScenesデータセットの実験によると、InstanceBEVは、最適化を必要とせず、シンプルで効率的なフレームワークを維持しながら、最先端のパフォーマンスを達成する。
関連論文リスト
- LSSInst: Improving Geometric Modeling in LSS-Based BEV Perception with Instance Representation [10.434754671492723]
本稿では,BEVおよびインスタンス表現をタンデムに組み込んだ2段階物体検出器であるLSSInstを提案する。
提案した検出器は、既存のLSSベースのBEVネットワークに柔軟に統合可能な、きめ細かいピクセルレベルの特徴を利用する。
提案するフレームワークは,高性能な一般化能力と性能を備え,ベルやホイッスルを使わずに,現代のLSSベースのBEV認識手法の性能を向上させる。
論文 参考訳(メタデータ) (2024-11-09T13:03:54Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Zero-BEV: Zero-shot Projection of Any First-Person Modality to BEV Maps [13.524499163234342]
本稿では,対応するBEVマップに対して,一人称視点で利用可能な任意のモダリティをゼロショット投影できる新しいモデルを提案する。
本研究では,本モデルが競合手法,特に単眼深度推定に広く用いられているベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-21T14:50:24Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。