Fugu-MT 論文翻訳(概要): Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

論文の概要: Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction

arxiv url: http://arxiv.org/abs/2305.18829v1
Date: Tue, 30 May 2023 08:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 17:29:48.760668
Title: Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
Title（参考訳）: Occ-BEV:3次元シーン再構成によるマルチカメラ統合事前訓練
Authors: Chen Min, Xinli Xu, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai
Abstract要約: 我々はOcc-BEVと呼ばれる新しいマルチカメラ統合事前学習フレームワークを提案する。 3Dデコーダは、バードアイビューの機能を活用して3D幾何学の占有率を予測するように設計されている。 Occ-BEVは、マルチカメラ3Dオブジェクト検出やセマンティックシーン補完といった重要なタスクにおいて有望な結果を示す。
参考スコア（独自算出の注目度）: 8.086311182113274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-camera 3D perception has emerged as a prominent research field in autonomous driving, offering a viable and cost-effective alternative to LiDAR-based solutions. However, existing multi-camera algorithms primarily rely on monocular image pre-training, which overlooks the spatial and temporal correlations among different camera views. To address this limitation, we propose a novel multi-camera unified pre-training framework called Occ-BEV, which involves initially reconstructing the 3D scene as the foundational stage and subsequently fine-tuning the model on downstream tasks. Specifically, a 3D decoder is designed for leveraging Bird's Eye View (BEV) features from multi-view images to predict the 3D geometry occupancy to enable the model to capture a more comprehensive understanding of the 3D environment. One significant advantage of Occ-BEV is that it can utilize a vast amount of unlabeled image-LiDAR pairs for pre-training. The proposed multi-camera unified pre-training framework demonstrates promising results in key tasks such as multi-camera 3D object detection and semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, Occ-BEV demonstrates a significant improvement of 2.0% in mAP and 2.0% in NDS for 3D object detection, as well as a 0.8% increase in mIOU for semantic scene completion. codes are publicly available at https://github.com/chaytonmin/Occ-BEV.
Abstract（参考訳）: マルチカメラの3D認識は、LiDARベースのソリューションに代わる実用的で費用対効果の高い代替手段を提供する、自動運転における顕著な研究分野として登場した。しかし、既存のマルチカメラアルゴリズムは主に単眼画像の事前学習に依存しており、異なるカメラビュー間の空間的および時間的相関を見落としている。この制限に対処するために,Occ-BEVと呼ばれる新しいマルチカメラ統合事前学習フレームワークを提案する。具体的には、3Dデコーダは、多視点画像からBird's Eye View(BEV)機能を活用して、3Dの幾何学的占有率を予測することで、モデルがより包括的な3D環境理解を捉えることができる。 Occ-BEVの大きな利点の1つは、大量のラベルなしイメージ-LiDARペアを事前トレーニングに利用できることである。提案するマルチカメラ統合事前学習フレームワークは,マルチカメラ3dオブジェクト検出やセマンティクスシーン補完といった重要なタスクにおいて,有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較すると,Occ-BEVは3次元オブジェクト検出ではmAPが2.0%,NDSが2.0%,セマンティックシーン完了ではmIOUが0.8%向上した。コードはhttps://github.com/chaytonmin/Occ-BEVで公開されている。

関連論文リスト

Toward a Real-Time Framework for Accurate Monocular 3D Human Pose Estimation with Geometric Priors [0.0]
リアルタイム2Dキーポイント検出と幾何学的2D-to-3Dリフトを組み合わせたフレームワークを提案する。特殊なハードウェアを必要とせずにモノクロ画像から高速でパーソナライズされた正確な3次元ポーズ推定を実現する方法について論じる。
論文参考訳（メタデータ） (2025-07-21T08:18:23Z)
UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。 UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文参考訳（メタデータ） (2025-06-11T17:23:21Z)
Adapt3R: Adaptive 3D Scene Representation for Domain Transfer in Imitation Learning [28.80962812015936]
キャリブレーションされたRGBDカメラからの観察を取り入れた3次元シーン表現は、ILポリシーの一般化性を改善する方法として提案されている。本稿では、1つ以上のRGBDカメラからのデータを1つのベクトルに合成し、任意のILアルゴリズムの条件付けとして使用できる新しいアーキテクチャを用いたAdaptive 3D Scene Representation(Adapt3R)を提案する。我々は,複数のSOTAマルチタスクILアルゴリズムを用いてエンドツーエンドにトレーニングを行った場合,Adapt3Rはこれらのアルゴリズムのマルチタスク学習能力を維持しつつ,新規なエンボディメントやカメラポーズへのゼロショット転送を可能にしていることを示す。
論文参考訳（メタデータ） (2025-03-06T18:17:09Z)
MonoSOWA: Scalable monocular 3D Object detector Without human Annotations [0.0]
本稿では,ドメイン固有のアノテーションを使わずに,単一のRGBカメラから3Dオブジェクト検出器をトレーニングする方法を提案する。この手法は3つの公開データセットで評価され、人間のラベルを使わずに、先行研究よりもかなりの差で性能が向上する。
論文参考訳（メタデータ） (2025-01-16T11:35:22Z)
3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文参考訳（メタデータ） (2024-06-26T20:16:49Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。 UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文参考訳（メタデータ） (2023-10-12T14:39:58Z)
DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation [25.933070263556374]
自律走行車産業における大量生産に費用対効果があるため, マルチカメラ・バードアイビュー(BEV)から学んだ表現に基づく3次元認識がトレンドとなっている。マルチカメラのBEVとLiDARベースの3Dオブジェクト検出の間には、明確なパフォーマンスギャップがある。そこで本研究では,多カメラBEVベースの学生検出器の表現学習を,LiDARベースの教師検出器の特徴を模倣するように訓練することで促進することを提案する。
論文参考訳（メタデータ） (2023-09-26T17:56:21Z)
3D Data Augmentation for Driving Scenes on Camera [50.41413053812315]
本稿では,Drive-3DAugと呼ばれる3次元データ拡張手法を提案する。まずNeural Radiance Field(NeRF)を用いて,背景および前景の3次元モデルの再構成を行う。そして、予め定義された背景の有効領域に適応した位置と向きの3Dオブジェクトを配置することにより、拡張駆動シーンを得ることができる。
論文参考訳（メタデータ） (2023-03-18T05:51:05Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。 1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。 1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文参考訳（メタデータ） (2022-07-20T14:47:28Z)
CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文参考訳（メタデータ） (2020-11-30T10:42:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。