論文の概要: Geometric-aware Pretraining for Vision-centric 3D Object Detection
- arxiv url: http://arxiv.org/abs/2304.03105v2
- Date: Fri, 7 Apr 2023 16:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 14:05:39.269354
- Title: Geometric-aware Pretraining for Vision-centric 3D Object Detection
- Title(参考訳): 視覚中心3次元物体検出のための幾何学的事前学習
- Authors: Linyan Huang, Huijie Wang, Jia Zeng, Shengchuan Zhang, Liujuan Cao,
Junchi Yan, Hongyang Li
- Abstract要約: GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
- 参考スコア(独自算出の注目度): 77.7979088689944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-camera 3D object detection for autonomous driving is a challenging
problem that has garnered notable attention from both academia and industry. An
obstacle encountered in vision-based techniques involves the precise extraction
of geometry-conscious features from RGB images. Recent approaches have utilized
geometric-aware image backbones pretrained on depth-relevant tasks to acquire
spatial information. However, these approaches overlook the critical aspect of
view transformation, resulting in inadequate performance due to the
misalignment of spatial knowledge between the image backbone and view
transformation. To address this issue, we propose a novel geometric-aware
pretraining framework called GAPretrain. Our approach incorporates spatial and
structural cues to camera networks by employing the geometric-rich modality as
guidance during the pretraining phase. The transference of modal-specific
attributes across different modalities is non-trivial, but we bridge this gap
by using a unified bird's-eye-view (BEV) representation and structural hints
derived from LiDAR point clouds to facilitate the pretraining process.
GAPretrain serves as a plug-and-play solution that can be flexibly applied to
multiple state-of-the-art detectors. Our experiments demonstrate the
effectiveness and generalization ability of the proposed method. We achieve
46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with
a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on
various image backbones and view transformations to validate the efficacy of
our approach. Code will be released at
https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.
- Abstract(参考訳): 自律運転のためのマルチカメラ3Dオブジェクト検出は、学術と産業の両方から注目を浴びている課題である。
視覚に基づく技術で遭遇する障害は、rgb画像から幾何学的特徴を正確に抽出することである。
近年のアプローチでは、深度関連タスクで事前訓練された幾何学的画像バックボーンを用いて空間情報を取得する。
しかし、これらのアプローチはビュー変換の重要な側面を見落とし、画像バックボーンとビュー変換の間の空間的知識の不整合による性能の低下をもたらす。
この問題に対処するため,GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
本手法は,事前学習段階で幾何学的リッチモダリティを指導として,カメラネットワークへの空間的および構造的手がかりを取り入れている。
異なるモダリティにまたがるモーダル固有の属性の転送は簡単ではないが、このギャップを鳥眼ビュー(BEV)の統一表現とLiDAR点雲から得られる構造的ヒントを用いて橋渡しし、事前学習プロセスを容易にする。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
本実験は,提案手法の有効性と一般化能力を示す。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
また,様々な画像バックボーンとビュー変換の実験を行い,本手法の有効性を検証した。
コードはhttps://github.com/OpenDriveLab/BEVPerception-Survey-Recipeでリリースされる。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural Calibration [107.61458720202984]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性ポーズを推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Exploring intermediate representation for monocular vehicle pose
estimation [38.85309013717312]
1枚のRGB画像からSO(3)の車両ポーズを復元する学習ベースの新しいフレームワークを提案する。
局所的な外観から観測角度へマッピングする以前の作品とは対照的に、我々は意味のある中間幾何学的表現(IGR)を抽出して進歩的なアプローチを探求する。
このアプローチは、知覚強度をIGRに変換するディープモデルを特徴とし、カメラ座標系における物体の向きを符号化する3次元表現にマッピングする。
論文 参考訳(メタデータ) (2020-11-17T06:30:51Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。