論文の概要: Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving
- arxiv url: http://arxiv.org/abs/2304.14365v1
- Date: Thu, 27 Apr 2023 17:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 12:12:57.714836
- Title: Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving
- Title(参考訳): Occ3D: 自動運転のための大規模3D作業予測ベンチマーク
- Authors: Xiaoyu Tian, Tao Jiang, Longfei Yun, Yue Wang, Yilun Wang, Hang Zhao
- Abstract要約: ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。
既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細、一般的な語彙外オブジェクトの扱いに苦慮している。
多視点画像からオブジェクトの詳細な占有状況と意味を推定することを目的とした,3次元占有予測のための新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 24.756586885561504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic perception requires the modeling of both 3D geometry and semantics.
Existing methods typically focus on estimating 3D bounding boxes, neglecting
finer geometric details and struggling to handle general, out-of-vocabulary
objects. To overcome these limitations, we introduce a novel task for 3D
occupancy prediction, which aims to estimate the detailed occupancy and
semantics of objects from multi-view images. To facilitate this task, we
develop a label generation pipeline that produces dense, visibility-aware
labels for a given scene. This pipeline includes point cloud aggregation, point
labeling, and occlusion handling. We construct two benchmarks based on the
Waymo Open Dataset and the nuScenes Dataset, resulting in the Occ3D-Waymo and
Occ3D-nuScenes benchmarks. Lastly, we propose a model, dubbed Coarse-to-Fine
Occupancy (CTF-Occ) network, which demonstrates superior performance in the 3D
occupancy prediction task. This approach addresses the need for finer geometric
understanding in a coarse-to-fine fashion. The code, data, and benchmarks are
released at https://tsinghua-mars-lab.github.io/Occ3D/.
- Abstract(参考訳): ロボット知覚は3次元幾何学と意味論の両方をモデル化する必要がある。
既存の手法は通常、3D境界ボックスの推定、より細かい幾何学的詳細の無視、一般的な語彙外オブジェクトの扱いに苦慮している。
これらの制約を克服するために,多視点画像からオブジェクトの詳細な占有状況と意味を推定することを目的とした,3次元占有予測の新しいタスクを導入する。
この作業を容易にするために,特定のシーンに対して高密度で可視性のあるラベルを生成するラベル生成パイプラインを開発した。
このパイプラインにはポイントクラウドアグリゲーション、ポイントラベリング、オクルージョンハンドリングが含まれる。
Waymo Open DatasetとnuScenes Datasetの2つのベンチマークを構築し,Occ3D-WaymoとOcc3D-nuScenesベンチマークを作成した。
最後に,3次元占有率予測タスクにおいて優れた性能を示すモデルとして,粒度対細占有率(ctf-occ)ネットワークを提案する。
このアプローチは、粗い意味での幾何学的理解の必要性に対処します。
コード、データ、ベンチマークはhttps://tsinghua-mars-lab.github.io/occ3d/でリリースされる。
関連論文リスト
- ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding [51.509115746992165]
我々はARKit LabelMakerを紹介した。これは、密集したセマンティックアノテーションを備えた、最初の大規模で現実世界の3Dデータセットである。
また,3次元セマンティックセグメンテーションモデルを用いて,ScanNetおよびScanNet200データセットの最先端性能を推し進める。
論文 参考訳(メタデータ) (2024-10-17T14:44:35Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - FGR: Frustum-Aware Geometric Reasoning for Weakly Supervised 3D Vehicle
Detection [81.79171905308827]
3Dアノテーションを使わずに点雲中の車両を検出するためのフラストラム対応幾何推論(FGR)を提案する。
本手法は粗い3次元セグメンテーションと3次元バウンディングボックス推定の2段階からなる。
2Dバウンディングボックスとスパースポイントクラウドだけで、3D空間内のオブジェクトを正確に検出できます。
論文 参考訳(メタデータ) (2021-05-17T07:29:55Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Exploring Deep 3D Spatial Encodings for Large-Scale 3D Scene
Understanding [19.134536179555102]
生の3次元点雲の空間的特徴を非方向性グラフモデルに符号化することで,CNNに基づくアプローチの限界を克服する代替手法を提案する。
提案手法は、訓練時間とモデル安定性を改善して、最先端の精度で達成し、さらなる研究の可能性を示す。
論文 参考訳(メタデータ) (2020-11-29T12:56:19Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z) - SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint
Estimation [3.1542695050861544]
3Dの向きとオブジェクトの変換を推定することは、インフラストラクチャレスの自律走行と運転に不可欠である。
SMOKEと呼ばれる新しい3次元オブジェクト検出手法を提案する。
構造的単純さにもかかわらず、提案するSMOKEネットワークは、KITTIデータセット上の既存のモノクル3D検出方法よりも優れている。
論文 参考訳(メタデータ) (2020-02-24T08:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。