論文の概要: OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2306.01738v1
- Date: Fri, 2 Jun 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 13:46:10.549160
- Title: OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection
- Title(参考訳): OCBEV:多視点3次元物体検出用オブジェクト中心型BEVトランス
- Authors: Zhangyang Qi, Jiaqi Wang, Xiaoyang Wu, Hengshuang Zhao
- Abstract要約: マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
- 参考スコア(独自算出の注目度): 29.530177591608297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-view 3D object detection is becoming popular in autonomous driving due
to its high effectiveness and low cost. Most of the current state-of-the-art
detectors follow the query-based bird's-eye-view (BEV) paradigm, which benefits
from both BEV's strong perception power and end-to-end pipeline. Despite
achieving substantial progress, existing works model objects via globally
leveraging temporal and spatial information of BEV features, resulting in
problems when handling the challenging complex and dynamic autonomous driving
scenarios. In this paper, we proposed an Object-Centric query-BEV detector
OCBEV, which can carve the temporal and spatial cues of moving targets more
effectively. OCBEV comprises three designs: Object Aligned Temporal Fusion
aligns the BEV feature based on ego-motion and estimated current locations of
moving objects, leading to a precise instance-level feature fusion. Object
Focused Multi-View Sampling samples more 3D features from an adaptive local
height ranges of objects for each scene to enrich foreground information.
Object Informed Query Enhancement replaces part of pre-defined decoder queries
in common DETR-style decoders with positional features of objects on
high-confidence locations, introducing more direct object positional priors.
Extensive experimental evaluations are conducted on the challenging nuScenes
dataset. Our approach achieves a state-of-the-art result, surpassing the
traditional BEVFormer by 1.5 NDS points. Moreover, we have a faster convergence
speed and only need half of the training iterations to get comparable
performance, which further demonstrates its effectiveness.
- Abstract(参考訳): マルチビュー3dオブジェクト検出は、高い効率と低コストのため、自動運転で人気が高まっている。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っており、これはBEVの強い知覚力とエンドツーエンドパイプラインの恩恵を受けている。
実質的な進歩にもかかわらず、既存のワークスモデルオブジェクトは、bevの特徴の時間的および空間的情報をグローバルに活用し、複雑でダイナミックな自動運転シナリオを扱う際に問題を引き起こす。
本稿では,移動対象の時間的および空間的手がかりをより効果的に生成できる,オブジェクト中心のクエリbev検出器ocbevを提案する。
OCBEVは3つの設計で構成されている: Object Aligned Temporal Fusionは、エゴモーションと推定された移動物体の現在の位置に基づいてBEV機能を整列し、正確なインスタンスレベルの特徴融合をもたらす。
オブジェクトにフォーカスしたマルチビューサンプリング シーン毎の適応的な局所高さ範囲からより多くの3d特徴を抽出し、フォアグラウンド情報を豊かにする。
オブジェクトインフォームドクエリエンハンスメント(object informed query enhancement)は、共通のdetrスタイルのデコーダで定義済みのデコーダクエリの一部を、高信頼位置にあるオブジェクトの位置特徴に置き換え、より直接的なオブジェクトの位置優先を導入する。
挑戦的なnuScenesデータセット上で大規模な実験評価を行う。
提案手法は,従来のBEVFormerを1.5 NDSポイント超え,最先端の成果を達成する。
さらに、収束速度が速く、同等のパフォーマンスを得るためにはトレーニングイテレーションの半分しか必要ありません。
関連論文リスト
- EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。
EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。
トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文 参考訳(メタデータ) (2024-11-16T06:11:10Z) - Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Objects as Spatio-Temporal 2.5D points [5.588892124219713]
本研究では,ネットワークの単一フィードフォワードパスにおける2次元物体検出シーンの深度予測を協調学習することにより,物体の3次元位置を推定する弱い教師付き手法を提案する。
提案手法は,単点型オブジェクト検出装置を拡張し,各オブジェクトを時間的にBEVとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:14:30Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。