論文の概要: TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning
- arxiv url: http://arxiv.org/abs/2212.13979v1
- Date: Wed, 28 Dec 2022 17:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 14:35:44.631280
- Title: TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry
Learning
- Title(参考訳): TiG-BEV:ターゲット内形状学習による多視点BEV3D物体検出
- Authors: Peixiang Huang, Li Liu, Renrui Zhang, Song Zhang, Xinli Xu, Baichao
Wang, Guoyi Liu
- Abstract要約: 本稿では,LiDARモダリティからカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
TiG-BEVは、BEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
- 参考スコア(独自算出の注目度): 7.6887888234987125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve accurate and low-cost 3D object detection, existing methods
propose to benefit camera-based multi-view detectors with spatial cues provided
by the LiDAR modality, e.g., dense depth supervision and bird-eye-view (BEV)
feature distillation. However, they directly conduct point-to-point mimicking
from LiDAR to camera, which neglects the inner-geometry of foreground targets
and suffers from the modal gap between 2D-3D features. In this paper, we
propose the learning scheme of Target Inner-Geometry from the LiDAR modality
into camera-based BEV detectors for both dense depth and BEV features, termed
as TiG-BEV. First, we introduce an inner-depth supervision module to learn the
low-level relative depth relations between different foreground pixels. This
enables the camera-based detector to better understand the object-wise spatial
structures. Second, we design an inner-feature BEV distillation module to
imitate the high-level semantics of different keypoints within foreground
targets. To further alleviate the BEV feature gap between two modalities, we
adopt both inter-channel and inter-keypoint distillation for feature-similarity
modeling. With our target inner-geometry distillation, TiG-BEV can effectively
boost BEVDepth by +2.3% NDS and +2.4% mAP, along with BEVDet by +9.1% NDS and
+10.3% mAP on nuScenes val set. Code will be available at
https://github.com/ADLab3Ds/TiG-BEV.
- Abstract(参考訳): 高精度で低コストな3Dオブジェクト検出を実現するため,既存手法ではLiDARモダリティによる空間的手がかりを持つカメラベースの多視点検出器(例えば,深度監視と鳥眼視(BEV)特徴蒸留など)が提案されている。
しかし、彼らは直接LiDARからカメラへのポイント・ツー・ポイントの模倣を行い、2D-3D特徴間のモーダルギャップに悩まされる前景の形状を無視する。
本稿では,LiDARモダリティからTiG-BEVと呼ばれる高密度深度・BEV特性のカメラベースBEV検出器へのターゲット内形状の学習手法を提案する。
まず,異なる前景画素間の低レベル相対深度関係を学習するための奥行き監視モジュールを提案する。
これにより、カメラベースの検出器は、オブジェクトの空間構造をよりよく理解することができる。
第2に,前景目標の異なるキーポイントの高レベルセマンティクスを模倣する内部機能bev蒸留モジュールを設計した。
2つのモード間のBEV特徴ギャップを緩和するため、我々はチャンネル間蒸留とキーポイント間蒸留の両方を特徴類似性モデリングに適用した。
ターゲットとした内部幾何蒸留により、TiG-BEVはBEVDepthを+2.3% NDS、+2.4% mAP、BEVDetを+9.1% NDS、+10.3% mAPで効果的に増強することができる。
コードはhttps://github.com/ADLab3Ds/TiG-BEVで入手できる。
関連論文リスト
- VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera
Videos [20.51396212498941]
SparseBEVは完全にスパースな3Dオブジェクト検出器で、密度の高い物体よりも優れています。
nuScenesのテスト分割で、SparseBEVは67.5 NDSの最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-08-18T02:11:01Z) - BEV-IO: Enhancing Bird's-Eye-View 3D Detection with Instance Occupancy [58.92659367605442]
我々は,BEV表現をインスタンス占有情報で拡張する新しい3次元検出パラダイムであるBEV-IOを提案する。
BEV-IOは、パラメータや計算オーバーヘッドの無視できる増加しか加えず、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T11:16:12Z) - LiDAR-Based 3D Object Detection via Hybrid 2D Semantic Scene Generation [38.38852904444365]
本稿では,2次元空間における3次元環境のセマンティクスと幾何学の両方をエンコードするシーン表現を提案する。
私たちのシンプルで効果的なデザインは、ほとんどの最先端の3Dオブジェクト検出器に簡単に統合できます。
論文 参考訳(メタデータ) (2023-04-04T04:05:56Z) - BEVFusion4D: Learning LiDAR-Camera Fusion Under Bird's-Eye-View via
Cross-Modality Guidance and Temporal Aggregation [14.606324706328106]
本稿では,LiDARとカメラBEVを生成し,適応的なモダリティ融合を行うためのデュアルブランチフレームワークを提案する。
LiDAR-Guided View Transformer (LGVT) は、BEV空間におけるカメラ表現を効果的に得るように設計されている。
BEVFusion4Dと呼ばれる我々のフレームワークは、3Dオブジェクト検出において最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-30T02:18:07Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。