論文の概要: OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields
- arxiv url: http://arxiv.org/abs/2312.09243v1
- Date: Thu, 14 Dec 2023 18:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:14:47.656084
- Title: OccNeRF: Self-Supervised Multi-Camera Occupancy Prediction with Neural
Radiance Fields
- Title(参考訳): OccNeRF:ニューラルラジアンス場を用いた自己監督型マルチカメラ動作予測
- Authors: Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang,
Yueqi Duan, Jiwen Lu
- Abstract要約: 自己監督型マルチカメラ占有率予測のためのOccNeRF法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成する。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
- 参考スコア(独自算出の注目度): 80.35807140179736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental task of vision-based perception, 3D occupancy prediction
reconstructs 3D structures of surrounding environments. It provides detailed
information for autonomous driving planning and navigation. However, most
existing methods heavily rely on the LiDAR point clouds to generate occupancy
ground truth, which is not available in the vision-based system. In this paper,
we propose an OccNeRF method for self-supervised multi-camera occupancy
prediction. Different from bounded 3D occupancy labels, we need to consider
unbounded scenes with raw image supervision. To solve the issue, we
parameterize the reconstructed occupancy fields and reorganize the sampling
strategy. The neural rendering is adopted to convert occupancy fields to
multi-camera depth maps, supervised by multi-frame photometric consistency.
Moreover, for semantic occupancy prediction, we design several strategies to
polish the prompts and filter the outputs of a pretrained open-vocabulary 2D
segmentation model. Extensive experiments for both self-supervised depth
estimation and semantic occupancy prediction tasks on nuScenes dataset
demonstrate the effectiveness of our method.
- Abstract(参考訳): 視覚に基づく知覚の基本課題として、3次元占有予測は周囲環境の3次元構造を再構築する。
自動運転計画とナビゲーションに関する詳細な情報を提供する。
しかし、既存の手法の多くはlidar point cloudに強く依存し、視覚ベースのシステムでは利用できない占有率基底真理を生成する。
本稿では,OccNeRF法による自己監督型マルチカメラ占有予測を提案する。
有界3Dの占有ラベルと異なり、未有界シーンを生画像監視で検討する必要がある。
この問題を解決するために,再構成された占有場をパラメータ化し,サンプリング戦略を再編成する。
ニューラルネットワークのレンダリングは、占有フィールドをマルチカメラ深度マップに変換し、マルチフレームフォトメトリック一貫性によって監督する。
さらに,semantic occupancy predictionのために,事前学習したオープンボカブラリー2次元セグメンテーションモデルのプロンプトを洗練し,出力をフィルタリングする手法をいくつか設計する。
nuScenesデータセット上での自己教師付き深度推定とセマンティック占有予測の両タスクに対する大規模な実験により,本手法の有効性が示された。
関連論文リスト
- OccFusion: Depth Estimation Free Multi-sensor Fusion for 3D Occupancy
Prediction [5.069242662340813]
マルチセンサフュージョンに基づく3次元占有予測は、信頼性の高い自律運転システムに不可欠である。
従来の核融合による3次元占有予測は2次元画像特徴の深度推定に頼っていた。
我々は,奥行き推定が不要なマルチモーダル融合法であるOccFusionと,画像特徴の密接な統合のための対応する点クラウドサンプリングアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-08T14:07:37Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - A Simple Framework for 3D Occupancy Estimation in Autonomous Driving [16.605853706182696]
本稿では,CNNをベースとした3次元占有率推定のための重要な要素をいくつか明らかにするフレームワークを提案する。
また,3次元占有率推定と,単眼深度推定や3次元再構成などの関連課題との関係についても検討した。
論文 参考訳(メタデータ) (2023-03-17T15:57:14Z) - Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes
based on Monocular Camera and Single LiDAR [41.39277657279448]
大規模シーンにおける3次元多人数ポーズ推定のためのモノクロカメラとLiDARによる単一手法を提案する。
具体的には,画像や点クラウドを含むマルチモーダル入力データを活用するための効果的な融合戦略を設計する。
本手法は, 点雲の固有な幾何学的制約を自己監督のために利用し, 画像上の2次元キーポイントを弱監督のために利用する。
論文 参考訳(メタデータ) (2022-11-30T12:50:40Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Advancing Self-supervised Monocular Depth Learning with Sparse LiDAR [22.202192422883122]
本稿では,自己教師付き単分子深度学習を推進するための2段階ネットワークを提案する。
本モデルでは,単色画像特徴と疎LiDAR特徴を融合させて初期深度マップを推定する。
我々のモデルは、下流タスクのモノクロ3Dオブジェクト検出において、最先端のスパース-LiDAR法(Pseudo-LiDAR++)を68%以上向上させる。
論文 参考訳(メタデータ) (2021-09-20T15:28:36Z) - SLPC: a VRNN-based approach for stochastic lidar prediction and
completion in autonomous driving [63.87272273293804]
VRNN(Variiational Recurrent Neural Networks)と呼ばれる生成モデルに基づく新しいLiDAR予測フレームワークを提案する。
提案手法は,フレーム内の奥行きマップを空間的に塗り替えることで,スパースデータを扱う際の従来のビデオ予測フレームワークの限界に対処できる。
VRNNのスパースバージョンとラベルを必要としない効果的な自己監督型トレーニング方法を紹介します。
論文 参考訳(メタデータ) (2021-02-19T11:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。