論文の概要: OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
- arxiv url: http://arxiv.org/abs/2312.09243v3
- Date: Wed, 21 Aug 2024 12:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 23:04:42.931200
- Title: OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
- Title(参考訳): OccNeRF:LiDARフリー環境での3D作業予測の改善
- Authors: Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu,
- Abstract要約: 本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
- 参考スコア(独自算出の注目度): 77.0399450848749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for training occupancy networks without 3D supervision. Different from previous works which consider a bounded scene, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy to align with the cameras' infinite perceptive range. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and 3D occupancy prediction tasks on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 活動予測は周囲環境の3次元構造を再構築する。
自動運転計画とナビゲーションに関する詳細な情報を提供する。
しかし、既存のほとんどの手法は、視覚ベースのシステムでは利用できない占領地真実を生成するために、LiDAR点雲に大きく依存している。
本稿では,OccNeRF法を用いて,3次元の監督なしに占有ネットワークを訓練する手法を提案する。
境界シーンを考慮した従来の作業と異なり、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
ニューラルレンダリングは、被写界をマルチカメラ深度マップに変換するために採用され、多フレーム光度一貫性によって教師される。
さらに,セマンティック占有予測のために,事前学習したオープン語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
nuScenes と SemanticKITTI データセット上での自己監督深度推定と 3 次元占有予測の両タスクの広範な実験により,本手法の有効性が示された。
関連論文リスト
- GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - CARFF: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting [15.392692128626809]
CARFFは,過去の観測から得られた未来の3Dシーンを予測する手法である。
我々は、Pose-Conditional-VAEとNeRFの2段階のトレーニングを用いて、3D表現を学習する。
CARLA運転シミュレータを用いたシナリオにおける本手法の有用性を実証する。
論文 参考訳(メタデータ) (2024-01-31T18:56:09Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - A Simple Framework for 3D Occupancy Estimation in Autonomous Driving [16.605853706182696]
本稿では,CNNをベースとした3次元占有率推定のための重要な要素をいくつか明らかにするフレームワークを提案する。
また,3次元占有率推定と,単眼深度推定や3次元再構成などの関連課題との関係についても検討した。
論文 参考訳(メタデータ) (2023-03-17T15:57:14Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Self-supervised Point Cloud Prediction Using 3D Spatio-temporal
Convolutional Networks [27.49539859498477]
未来の点雲を予測するために、過去の3D LiDARスキャンをエクスプロイトすることは、自律的なモバイルシステムにとって有望な方法である。
本稿では,各3次元LiDARスキャンの2次元範囲画像表現を利用したエンドツーエンドアプローチを提案する。
我々は3次元畳み込みを用いたエンコーダデコーダアーキテクチャを開発し、シーンの空間情報と時間情報を共同で集約する。
論文 参考訳(メタデータ) (2021-09-28T19:58:13Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。