論文の概要: SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2311.12754v1
- Date: Tue, 21 Nov 2023 17:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 23:38:55.633424
- Title: SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction
- Title(参考訳): SelfOcc: 自己監督型ビジョンベースの3D作業予測
- Authors: Yuanhui Huang, Wenzhao Zheng, Borui Zhang, Jie Zhou, Jiwen Lu
- Abstract要約: 本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
- 参考スコア(独自算出の注目度): 77.15924044466976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction is an important task for the robustness of
vision-centric autonomous driving, which aims to predict whether each point is
occupied in the surrounding 3D space. Existing methods usually require 3D
occupancy labels to produce meaningful results. However, it is very laborious
to annotate the occupancy status of each voxel. In this paper, we propose
SelfOcc to explore a self-supervised way to learn 3D occupancy using only video
sequences. We first transform the images into the 3D space (e.g., bird's eye
view) to obtain 3D representation of the scene. We directly impose constraints
on the 3D representations by treating them as signed distance fields. We can
then render 2D images of previous and future frames as self-supervision signals
to learn the 3D representations. We propose an MVS-embedded strategy to
directly optimize the SDF-induced weights with multiple depth proposals. Our
SelfOcc outperforms the previous best method SceneRF by 58.7% using a single
frame as input on SemanticKITTI and is the first self-supervised work that
produces reasonable 3D occupancy for surround cameras on Occ3D. SelfOcc
produces high-quality depth and achieves state-of-the-art results on novel
depth synthesis, monocular depth estimation, and surround-view depth estimation
on the SemanticKITTI, KITTI-2015, and nuScenes, respectively. Code:
https://github.com/huang-yh/SelfOcc.
- Abstract(参考訳): 3D占有予測は、周囲の3D空間に各点が占有されているかどうかを予測することを目的とした、視覚中心の自律運転の堅牢性にとって重要な課題である。
既存の方法は通常、有意義な結果を得るために3dの占有ラベルを必要とする。
しかし、それぞれのボクセルの占有状況に注釈をつけるのは非常に困難である。
本稿では,ビデオシーケンスのみを用いて3Dの占有度を学習する自己教師型手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
符号付き距離場として扱うことにより,3次元表現に直接制約を課す。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
複数の深度の提案により,SDFによる重み付けを直接最適化するMSV組込み方式を提案する。
我々のSelfOccは、SemanticKITTIの入力として単一のフレームを使用してSceneRFを58.7%向上させ、Occ3Dの周囲カメラに合理的な3D占有力を与える最初の自己監督型ワークである。
SelfOccは高品質な深度を生成し、新しい深度合成、単分子深度推定、SemanticKITTI、KITTI-2015、nuScenesのサラウンドビュー深度推定の最先端結果を達成する。
コード: https://github.com/huang-yh/selfocc。
関連論文リスト
- OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving [67.49461023261536]
我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
論文 参考訳(メタデータ) (2023-11-27T17:59:41Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - RenderOcc: Vision-Centric 3D Occupancy Prediction with 2D Rendering
Supervision [36.15913507034939]
RenderOccは2次元ラベルのみを用いて3次元占有モデルを訓練するための新しいパラダイムである。
具体的には、マルチビュー画像からNeRFスタイルの3Dボリューム表現を抽出する。
ボリュームレンダリング技術を用いて2次元レンダリングを確立することにより,2次元セマンティクスや深度ラベルから直接の3D監視を可能にする。
論文 参考訳(メタデータ) (2023-09-18T06:08:15Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。