論文の概要: OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
- arxiv url: http://arxiv.org/abs/2312.09243v3
- Date: Wed, 21 Aug 2024 12:24:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 23:04:42.931200
- Title: OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments
- Title(参考訳): OccNeRF:LiDARフリー環境での3D作業予測の改善
- Authors: Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu,
- Abstract要約: 本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
- 参考スコア(独自算出の注目度): 77.0399450848749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for training occupancy networks without 3D supervision. Different from previous works which consider a bounded scene, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy to align with the cameras' infinite perceptive range. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and 3D occupancy prediction tasks on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 活動予測は周囲環境の3次元構造を再構築する。
自動運転計画とナビゲーションに関する詳細な情報を提供する。
しかし、既存のほとんどの手法は、視覚ベースのシステムでは利用できない占領地真実を生成するために、LiDAR点雲に大きく依存している。
本稿では,OccNeRF法を用いて,3次元の監督なしに占有ネットワークを訓練する手法を提案する。
境界シーンを考慮した従来の作業と異なり、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
ニューラルレンダリングは、被写界をマルチカメラ深度マップに変換するために採用され、多フレーム光度一貫性によって教師される。
さらに,セマンティック占有予測のために,事前学習したオープン語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
nuScenes と SemanticKITTI データセット上での自己監督深度推定と 3 次元占有予測の両タスクの広範な実験により,本手法の有効性が示された。
関連論文リスト
- ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。
また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。
本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-15T15:04:27Z) - VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。
画像のみを監督として多視点表現を再構築する。
これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-11-22T03:59:41Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - 3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。
私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。
本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文 参考訳(メタデータ) (2021-12-01T00:52:42Z) - Self-supervised Point Cloud Prediction Using 3D Spatio-temporal
Convolutional Networks [27.49539859498477]
未来の点雲を予測するために、過去の3D LiDARスキャンをエクスプロイトすることは、自律的なモバイルシステムにとって有望な方法である。
本稿では,各3次元LiDARスキャンの2次元範囲画像表現を利用したエンドツーエンドアプローチを提案する。
我々は3次元畳み込みを用いたエンコーダデコーダアーキテクチャを開発し、シーンの空間情報と時間情報を共同で集約する。
論文 参考訳(メタデータ) (2021-09-28T19:58:13Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。