論文の概要: Scene as Occupancy
- arxiv url: http://arxiv.org/abs/2306.02851v3
- Date: Mon, 26 Jun 2023 12:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 22:11:02.364950
- Title: Scene as Occupancy
- Title(参考訳): 居所としての場面
- Authors: Chonghao Sima, Wenwen Tong, Tai Wang, Li Chen, Silei Wu, Hanming Deng,
Yi Gu, Lewei Lu, Ping Luo, Dahua Lin, Hongyang Li
- Abstract要約: OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
- 参考スコア(独自算出の注目度): 66.43673774733307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human driver can easily describe the complex traffic scene by visual system.
Such an ability of precise perception is essential for driver's planning. To
achieve this, a geometry-aware representation that quantizes the physical 3D
scene into structured grid map with semantic labels per cell, termed as 3D
Occupancy, would be desirable. Compared to the form of bounding box, a key
insight behind occupancy is that it could capture the fine-grained details of
critical obstacles in the scene, and thereby facilitate subsequent tasks. Prior
or concurrent literature mainly concentrate on a single scene completion task,
where we might argue that the potential of this occupancy representation might
obsess broader impact. In this paper, we propose OccNet, a multi-view
vision-centric pipeline with a cascade and temporal voxel decoder to
reconstruct 3D occupancy. At the core of OccNet is a general occupancy
embedding to represent 3D physical world. Such a descriptor could be applied
towards a wide span of driving tasks, including detection, segmentation and
planning. To validate the effectiveness of this new representation and our
proposed algorithm, we propose OpenOcc, the first dense high-quality 3D
occupancy benchmark built on top of nuScenes. Empirical experiments show that
there are evident performance gain across multiple tasks, e.g., motion planning
could witness a collision rate reduction by 15%-58%, demonstrating the
superiority of our method.
- Abstract(参考訳): 人間ドライバーは、視覚システムによって複雑な交通シーンを簡単に記述できる。
このような正確な認識能力はドライバーの計画に不可欠である。
これを実現するには、物理的3dシーンを3d占有と呼ばれるセルごとの意味ラベルを持つ構造化グリッドマップに定量化する幾何認識表現が望ましい。
拘束箱の形式と比較すると、占領の背景にある重要な洞察は、シーン内の重要な障害物のきめ細かい詳細を捉え、その後の作業を容易にすることである。
先行的あるいは同時的な文献は、主に単一のシーン完了タスクに集中しており、この占有率表現の可能性は、より広範な影響を過小評価するかもしれない。
本稿では,3次元空間を再現するためのカスケードとテンポラリボクセルデコーダを備えた多視点視覚中心パイプラインであるoccnetを提案する。
OccNetの中核には3D物理世界を表す汎用の占有層がある。
このような記述子は、検出、セグメンテーション、計画を含む幅広い運転タスクに適用できる。
この表現の有効性と提案アルゴリズムの有効性を検証するため,我々はnuScenes上に構築された初の高品位3D占有率ベンチマークOpenOccを提案する。
実験の結果,複数のタスクにまたがる性能向上が確認できた。例えば,動作計画では衝突速度が15%~58%低下し,提案手法の優位性が示された。
関連論文リスト
- PanoSSC: Exploring Monocular Panoptic 3D Scene Reconstruction for Autonomous Driving [15.441175735210791]
視覚中心の占有ネットワークは、セマンティクスを持った均一なボクセルで周囲の環境を表現する。
現代の占有ネットワークは主に、ボクセルのセマンティックな予測によって、物体表面から見えるボクセルを再構築することに焦点を当てている。
論文 参考訳(メタデータ) (2024-06-11T07:51:26Z) - ViewFormer: Exploring Spatiotemporal Modeling for Multi-View 3D Occupancy Perception via View-Guided Transformers [9.271932084757646]
3Dの占有は、前景と背景を物理的空間で区別することなく、全体のシーンをグリッドマップに表現する。
本稿では,効果的な多視点特徴集約のための学習優先視点アテンション機構を提案する。
既存の高品質データセットの上に構築されたベンチマークであるFlowOcc3Dを紹介します。
論文 参考訳(メタデータ) (2024-05-07T13:15:07Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - A Simple Framework for 3D Occupancy Estimation in Autonomous Driving [16.605853706182696]
本稿では,CNNをベースとした3次元占有率推定のための重要な要素をいくつか明らかにするフレームワークを提案する。
また,3次元占有率推定と,単眼深度推定や3次元再構成などの関連課題との関係についても検討した。
論文 参考訳(メタデータ) (2023-03-17T15:57:14Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。