論文の概要: Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
- arxiv url: http://arxiv.org/abs/2305.18829v1
- Date: Tue, 30 May 2023 08:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:29:48.760668
- Title: Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
- Title(参考訳): Occ-BEV:3次元シーン再構成によるマルチカメラ統合事前訓練
- Authors: Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai
- Abstract要約: 我々はOcc-BEVと呼ばれる新しいマルチカメラ統合事前学習フレームワークを提案する。
3Dデコーダは、バードアイビューの機能を活用して3D幾何学の占有率を予測するように設計されている。
Occ-BEVは、マルチカメラ3Dオブジェクト検出やセマンティックシーン補完といった重要なタスクにおいて有望な結果を示す。
- 参考スコア(独自算出の注目度): 8.086311182113274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-camera 3D perception has emerged as a prominent research field in
autonomous driving, offering a viable and cost-effective alternative to
LiDAR-based solutions. However, existing multi-camera algorithms primarily rely
on monocular image pre-training, which overlooks the spatial and temporal
correlations among different camera views. To address this limitation, we
propose a novel multi-camera unified pre-training framework called Occ-BEV,
which involves initially reconstructing the 3D scene as the foundational stage
and subsequently fine-tuning the model on downstream tasks. Specifically, a 3D
decoder is designed for leveraging Bird's Eye View (BEV) features from
multi-view images to predict the 3D geometry occupancy to enable the model to
capture a more comprehensive understanding of the 3D environment. One
significant advantage of Occ-BEV is that it can utilize a vast amount of
unlabeled image-LiDAR pairs for pre-training. The proposed multi-camera unified
pre-training framework demonstrates promising results in key tasks such as
multi-camera 3D object detection and semantic scene completion. When compared
to monocular pre-training methods on the nuScenes dataset, Occ-BEV demonstrates
a significant improvement of 2.0% in mAP and 2.0% in NDS for 3D object
detection, as well as a 0.8% increase in mIOU for semantic scene completion.
codes are publicly available at https://github.com/chaytonmin/Occ-BEV.
- Abstract(参考訳): マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。
しかし、既存のマルチカメラアルゴリズムは主に単眼画像の事前学習に依存しており、異なるカメラビュー間の空間的および時間的相関を見落としている。
この制限に対処するために,Occ-BEVと呼ばれる新しいマルチカメラ統合事前学習フレームワークを提案する。
具体的には、3Dデコーダは、多視点画像からBird's Eye View(BEV)機能を活用して、3Dの幾何学的占有率を予測することで、モデルがより包括的な3D環境理解を捉えることができる。
Occ-BEVの大きな利点の1つは、大量のラベルなしイメージ-LiDARペアを事前トレーニングに利用できることである。
提案するマルチカメラ統合事前学習フレームワークは,マルチカメラ3dオブジェクト検出やセマンティクスシーン補完といった重要なタスクにおいて,有望な結果を示す。
nuScenesデータセットの単分子事前学習法と比較すると,Occ-BEVは3次元オブジェクト検出ではmAPが2.0%,NDSが2.0%,セマンティックシーン完了ではmIOUが0.8%向上した。
コードはhttps://github.com/chaytonmin/Occ-BEVで公開されている。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal
Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。
マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。
そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:56:21Z) - 3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。
まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。
そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文 参考訳(メタデータ) (2023-03-18T05:51:05Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。