論文の概要: CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity
- arxiv url: http://arxiv.org/abs/2310.02815v3
- Date: Sun, 15 Sep 2024 15:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:37:26.083088
- Title: CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity
- Title(参考訳): CoBEV:奥行きと高さの相補性を考慮した道路側3次元物体検出
- Authors: Hao Shi, Chengshan Pang, Jiaming Zhang, Kailun Yang, Yuhao Wu, Huajian Ni, Yining Lin, Rainer Stiefelhagen, Kaiwei Wang,
- Abstract要約: 我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
- 参考スコア(独自算出の注目度): 34.025530326420146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Roadside camera-driven 3D object detection is a crucial task in intelligent transportation systems, which extends the perception range beyond the limitations of vision-centric vehicles and enhances road safety. While previous studies have limitations in using only depth or height information, we find both depth and height matter and they are in fact complementary. The depth feature encompasses precise geometric cues, whereas the height feature is primarily focused on distinguishing between various categories of height intervals, essentially providing semantic context. This insight motivates the development of Complementary-BEV (CoBEV), a novel end-to-end monocular 3D object detection framework that integrates depth and height to construct robust BEV representations. In essence, CoBEV estimates each pixel's depth and height distribution and lifts the camera features into 3D space for lateral fusion using the newly proposed two-stage complementary feature selection (CFS) module. A BEV feature distillation framework is also seamlessly integrated to further enhance the detection accuracy from the prior knowledge of the fusion-modal CoBEV teacher. We conduct extensive experiments on the public 3D detection benchmarks of roadside camera-based DAIR-V2X-I and Rope3D, as well as the private Supremind-Road dataset, demonstrating that CoBEV not only achieves the accuracy of the new state-of-the-art, but also significantly advances the robustness of previous methods in challenging long-distance scenarios and noisy camera disturbance, and enhances generalization by a large margin in heterologous settings with drastic changes in scene and camera parameters. For the first time, the vehicle AP score of a camera model reaches 80% on DAIR-V2X-I in terms of easy mode. The source code will be made publicly available at https://github.com/MasterHow/CoBEV.
- Abstract(参考訳): 道路カメラ駆動の3D物体検出は、視覚中心の車両の限界を超えて認識範囲を広げ、道路安全を高めるインテリジェント輸送システムにおいて重要な課題である。
これまでの研究では、深度や高さの情報のみを使用することに制限があったが、深さと高さの両方が発見され、実際は相補的である。
深さ特徴は正確な幾何学的手がかりを含むが、高さ特徴は主に高さ間隔の様々なカテゴリーを区別することに焦点を当てており、本質的に意味的な文脈を提供する。
この知見は、深度と高さを統合して堅牢なBEV表現を構築する、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEV(CoBEV)の開発を動機付けている。
基本的に、CoBEVは、各ピクセルの深さと高さの分布を推定し、新しく提案された2段階補足的特徴選択(CFS)モジュールを用いて、カメラ特徴を3次元空間にリフトする。
また、融合モダルCoBEV教師の以前の知識から検出精度を高めるために、BEV特徴蒸留フレームワークをシームレスに統合する。
我々は、道路側カメラベースのDAIR-V2X-IとRope3Dの公開3D検出ベンチマークと、プライベートなSupremind-Roadデータセットに関する広範な実験を行い、CoBEVが新しい最先端技術の精度を達成するだけでなく、長距離シナリオやノイズの多いカメラ障害に挑戦する従来の手法の堅牢性を著しく向上し、シーンやカメラパラメータの劇的な変化を伴う異種環境における大きなマージンによる一般化を促進する。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
ソースコードはhttps://github.com/MasterHow/CoBEV.comで公開されている。
関連論文リスト
- ROA-BEV: 2D Region-Oriented Attention for BEV-based 3D Object [14.219472370221029]
BEVに基づく3Dオブジェクト検出ネットワーク(ROA-BEV)のための2次元領域指向アテンションを提案する。
本手法は,マルチスケール構造を用いてROAの情報量を増加させる。
nuScenesの実験では、ROA-BEVはBEVDetとBEVDepthに基づいて性能を改善している。
論文 参考訳(メタデータ) (2024-10-14T08:51:56Z) - HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - BEVSpread: Spread Voxel Pooling for Bird's-Eye-View Representation in Vision-based Roadside 3D Object Detection [47.74067616658986]
視覚に基づく道路沿いの3D物体検出は、自律運転領域で注目を集めている。
この知見に触発されて,BEVSpreadと呼ばれる新しいボクセルプール方式を提案する。
BeVSpreadは既存のフラストタルベースのBEV法の性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-06-13T03:33:36Z) - Unleashing HyDRa: Hybrid Fusion, Depth Consistency and Radar for Unified 3D Perception [5.920946963698008]
多様な3次元知覚タスクのための新しいカメラレーダ融合アーキテクチャであるHyDRaを紹介する。
我々のハイト・アソシエーション・トランスフォーマー・モジュールは、すでに視界のレーダー機能を利用して、より堅牢で正確な深度予測を行う。
HyDRaは64.2 NDS (+1.8) と58.4 AMOTA (+1.5) のカメラレーダー融合のための新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-03-12T15:28:51Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection [47.7933708173225]
近年,クエリベースのトランスフォーマーデコーダが登場し,カメラベースの3Dオブジェクト検出が作り直されている。
本稿では,BEVNeXtと呼ばれる高密度BEVフレームワークを紹介する。
nuScenesベンチマークでは、BEVNeXtはBEVベースのフレームワークとクエリベースのフレームワークの両方を上回っている。
論文 参考訳(メタデータ) (2023-12-04T07:35:02Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning [7.6887888234987125]
本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
論文 参考訳(メタデータ) (2022-12-28T17:53:43Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。