Fugu-MT 論文翻訳(概要): OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

論文の概要: OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields

arxiv url: http://arxiv.org/abs/2312.09243v1
Date: Thu, 14 Dec 2023 18:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 20:14:47.656084
Title: OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural Radiance Fields
Title（参考訳）: OccNeRF:ニューラルラジアンス場を用いた自己監督型マルチカメラ動作予測
Authors: Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu
Abstract要約: 自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
参考スコア（独自算出の注目度）: 80.35807140179736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a fundamental task of vision-based perception, 3D occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for self-supervised multi-camera occupancy prediction. Different from bounded 3D occupancy labels, we need to consider unbounded scenes with raw image supervision. To solve the issue, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and semantic occupancy prediction tasks on nuScenes dataset demonstrate the effectiveness of our method.
Abstract（参考訳）: 視覚に基づく知覚の基本課題として、3次元占有予測は周囲環境の3次元構造を再構築する。自動運転計画とナビゲーションに関する詳細な情報を提供する。しかし、既存の手法の多くはlidar point cloudに強く依存し、視覚ベースのシステムでは利用できない占有率基底真理を生成する。本稿では,OccNeRF法による自己監督型マルチカメラ占有予測を提案する。有界3Dの占有ラベルと異なり、未有界シーンを生画像監視で検討する必要がある。この問題を解決するために,再構成された占有場をパラメータ化し,サンプリング戦略を再編成する。ニューラルネットワークのレンダリングは、占有フィールドをマルチカメラ深度マップに変換し、マルチフレームフォトメトリック一貫性によって監督する。さらに,semantic occupancy predictionのために,事前学習したオープンボカブラリー2次元セグメンテーションモデルのプロンプトを洗練し,出力をフィルタリングする手法をいくつか設計する。 nuScenesデータセット上での自己教師付き深度推定とセマンティック占有予測の両タスクに対する大規模な実験により,本手法の有効性が示された。

関連論文リスト

MinkOcc: Towards real-time label-efficient semantic occupancy prediction [8.239334282982623]
MinkOccはカメラとLiDARのためのマルチモーダルな3Dセマンティック占有予測フレームワークである。競争精度を維持しつつ、手動ラベリングへの依存を90%削減する。我々は、MinkOccをキュレートされたデータセットを超えて拡張することを目指しており、自動運転における3Dセマンティック占有率予測のより広範な現実的な展開を可能にしている。
論文参考訳（メタデータ） (2025-04-03T04:31:56Z)
ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文参考訳（メタデータ） (2024-12-15T15:04:27Z)
VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。画像のみを監督として多視点表現を再構築する。これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-11-22T03:59:41Z)
WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction [9.639795825672023]
オフロード環境は幾何学的情報に富んでいるため、3Dセマンティック占有予測タスクに適している。オフロード3Dセマンティック占有予測タスクに密接な占有アノテーションを提供する最初のベンチマークであるWildOccを紹介する。本稿では, より現実的な結果を得るために, 粗大な再構成を用いた基礎的真理生成パイプラインを提案する。
論文参考訳（メタデータ） (2024-10-21T09:02:40Z)
GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文参考訳（メタデータ） (2024-05-17T07:31:20Z)
RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文参考訳（メタデータ） (2023-12-19T03:39:56Z)
CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文参考訳（メタデータ） (2022-09-02T17:44:50Z)
3DVNet: Multi-View Depth Prediction and Volumetric Refinement [68.68537312256144]
3DVNetは、新しいマルチビューステレオ(MVS)深度予測法である。私たちのキーとなるアイデアは、粗い深度予測を反復的に更新する3Dシーンモデリングネットワークを使用することです。本手法は, 深度予測と3次元再構成の両指標において, 最先端の精度を超えることを示す。
論文参考訳（メタデータ） (2021-12-01T00:52:42Z)
Self-supervised Point Cloud Prediction Using 3D Spatio-temporal Convolutional Networks [27.49539859498477]
未来の点雲を予測するために、過去の3D LiDARスキャンをエクスプロイトすることは、自律的なモバイルシステムにとって有望な方法である。本稿では,各3次元LiDARスキャンの2次元範囲画像表現を利用したエンドツーエンドアプローチを提案する。我々は3次元畳み込みを用いたエンコーダデコーダアーキテクチャを開発し、シーンの空間情報と時間情報を共同で集約する。
論文参考訳（メタデータ） (2021-09-28T19:58:13Z)
Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文参考訳（メタデータ） (2021-09-20T15:28:36Z)
SLPC: a VRNN-based approach for stochastic lidar prediction and completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。 VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文参考訳（メタデータ） (2021-02-19T11:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。