論文の概要: Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2304.14365v3
- Date: Wed, 13 Dec 2023 17:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 21:06:27.391059
- Title: Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving
- Title(参考訳): Occ3D: 自動運転のための大規模3D作業予測ベンチマーク
- Authors: Xiaoyu Tian, Tao Jiang, Longfei Yun, Yucheng Mao, Huitong Yang, Yue
Wang, Yilun Wang, Hang Zhao
- Abstract要約: 我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 34.368848580725576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic perception requires the modeling of both 3D geometry and semantics.
Existing methods typically focus on estimating 3D bounding boxes, neglecting
finer geometric details and struggling to handle general, out-of-vocabulary
objects. 3D occupancy prediction, which estimates the detailed occupancy states
and semantics of a scene, is an emerging task to overcome these limitations. To
support 3D occupancy prediction, we develop a label generation pipeline that
produces dense, visibility-aware labels for any given scene. This pipeline
comprises three stages: voxel densification, occlusion reasoning, and
image-guided voxel refinement. We establish two benchmarks, derived from the
Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and
Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the
proposed dataset with various baseline models. Lastly, we propose a new model,
dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior
performance on the Occ3D benchmarks. The code, data, and benchmarks are
released at https://tsinghua-mars-lab.github.io/Occ3D/.
- Abstract(参考訳): ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。
既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細の無視、一般的な語彙外オブジェクトの扱いに苦慮している。
シーンの詳細な占有状態とセマンティクスを推定する3D占有予測は、これらの制限を克服する新たな課題である。
3D占有率予測を支援するため,任意のシーンに高密度で可視性のあるラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、閉塞推論、および画像誘導ボクセル精製の3段階からなる。
Waymo Open DatasetとnuScenes Datasetの2つのベンチマーク、すなわちOcc3D-WaymoとOcc3D-nuScenesベンチマークを構築します。
さらに,提案したデータセットをベースラインモデルを用いて広範囲に解析する。
最後に,occ3dベンチマークにおいて優れた性能を示す,粒度対細占有(ctf-occ)ネットワークと呼ばれる新しいモデルを提案する。
コード、データ、ベンチマークはhttps://tsinghua-mars-lab.github.io/occ3d/でリリースされる。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。