論文の概要: PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2306.10013v1
- Date: Fri, 16 Jun 2023 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 12:34:31.534297
- Title: PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation
- Title(参考訳): panoocc:カメラベースの3dパンオプティカルセグメンテーションのための統一的な占有率表現
- Authors: Yuqi Wang, Yuntao Chen, Xingyu Liao, Lue Fan and Zhaoxiang Zhang
- Abstract要約: 本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
- 参考スコア(独自算出の注目度): 45.39981876226129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comprehensive modeling of the surrounding 3D world is key to the success of
autonomous driving. However, existing perception tasks like object detection,
road structure segmentation, depth & elevation estimation, and open-set object
localization each only focus on a small facet of the holistic 3D scene
understanding task. This divide-and-conquer strategy simplifies the algorithm
development procedure at the cost of losing an end-to-end unified solution to
the problem. In this work, we address this limitation by studying camera-based
3D panoptic segmentation, aiming to achieve a unified occupancy representation
for camera-only 3D scene understanding. To achieve this, we introduce a novel
method called PanoOcc, which utilizes voxel queries to aggregate spatiotemporal
information from multi-frame and multi-view images in a coarse-to-fine scheme,
integrating feature learning and scene representation into a unified occupancy
representation. We have conducted extensive ablation studies to verify the
effectiveness and efficiency of the proposed method. Our approach achieves new
state-of-the-art results for camera-based semantic segmentation and panoptic
segmentation on the nuScenes dataset. Furthermore, our method can be easily
extended to dense occupancy prediction and has shown promising performance on
the Occ3D benchmark. The code will be released at
https://github.com/Robertwyq/PanoOcc.
- Abstract(参考訳): 周囲の3D世界の包括的モデリングは、自動運転の成功の鍵となる。
しかし,物体検出,道路構造のセグメンテーション,深度・標高推定,オープンセットオブジェクトの局所化といった既存の認識タスクは,総合的な3Dシーン理解タスクの小さな面のみに焦点を当てている。
この分割・分散戦略は、アルゴリズム開発手順を、エンドツーエンドの統一解を失うコストで単純化する。
本研究では,カメラのみの3dシーン理解のための統一的な占有表現の実現を目的とした,カメラベースの3dパンオプティカルセグメンテーションの研究によって,この制限に対処する。
そこで我々はPanoOccと呼ばれる新しい手法を導入し,複数のフレームとマルチビュー画像から時空間情報を集約し,特徴学習とシーン表現を統一的占有表現に統合する手法を提案する。
提案手法の有効性と有効性を検証するため,広範なアブレーション研究を行った。
本手法は,カメラを用いたセマンティクスセグメンテーションとパンオプティカルセグメンテーションをnuscenesデータセット上で実現する。
さらに,本手法は密接な占有率予測に容易に拡張でき,Occ3Dベンチマークで有望な性能を示した。
コードはhttps://github.com/robertwyq/panooccでリリースされる。
関連論文リスト
- PanoSSC: Exploring Monocular Panoptic 3D Scene Reconstruction for Autonomous Driving [15.441175735210791]
視覚中心の占有ネットワークは、セマンティクスを持った均一なボクセルで周囲の環境を表現する。
現代の占有ネットワークは主に、ボクセルのセマンティックな予測によって、物体表面から見えるボクセルを再構築することに焦点を当てている。
論文 参考訳(メタデータ) (2024-06-11T07:51:26Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - 3D Scene Geometry-Aware Constraint for Camera Localization with Deep
Learning [11.599633757222406]
近年、畳み込みニューラルネットワークに基づくエンドツーエンドのアプローチは、従来の3次元幾何学に基づく手法を達成または超えるように研究されている。
本研究では,絶対カメラポーズ回帰のためのコンパクトネットワークを提案する。
これらの従来の手法から着想を得た3Dシーンの幾何学的制約も、動き、深さ、画像の内容を含むすべての利用可能な情報を活用することによって導入される。
論文 参考訳(メタデータ) (2020-05-13T04:15:14Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - A Robotic 3D Perception System for Operating Room Environment Awareness [3.830091185868436]
手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。
このアーキテクチャに基づいて、マルチビュー3Dシーンセマンティックセマンティックセグメンテーションアルゴリズムを作成する。
提案アーキテクチャは、登録エラー(3.3%pm1.4%のオブジェクトカメラ距離)を許容し、シーンセグメンテーション性能を安定的に向上させることができる。
論文 参考訳(メタデータ) (2020-03-20T20:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。