論文の概要: An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.27238v1
- Date: Sat, 28 Mar 2026 11:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.860077
- Title: An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving
- Title(参考訳): 自律運転のためのインスタンス中心パノプティクス運転予測ベンチマーク
- Authors: Yi Feng, Junwu E, Zizhan Guo, Yu Ma, Hanli Wang, Rui Fan,
- Abstract要約: 本稿では,3次元パノプティカル占有予測タスクのインスタンス中心ベンチマークを提案する。
具体的には、自律運転に適した最初の統合3DメッシュライブラリであるADMeshを紹介する。
大規模で物理的に一貫した汎光学占有データセットであるCarlaOccを構築した。
- 参考スコア(独自算出の注目度): 25.37985701473846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic occupancy prediction aims to jointly infer voxel-wise semantics and instance identities within a unified 3D scene representation. Nevertheless, progress in this field remains constrained by the absence of high-quality 3D mesh resources, instance-level annotations, and physically consistent occupancy datasets. Existing benchmarks typically provide incomplete and low-resolution geometry without instance-level annotations, limiting the development of models capable of achieving precise geometric reconstruction, reliable occlusion reasoning, and holistic 3D understanding. To address these challenges, this paper presents an instance-centric benchmark for the 3D panoptic occupancy prediction task. Specifically, we introduce ADMesh, the first unified 3D mesh library tailored for autonomous driving, which integrates over 15K high-quality 3D models with diverse textures and rich semantic annotations. Building upon ADMesh, we further construct CarlaOcc, a large-scale, physically consistent panoptic occupancy dataset generated using the CARLA simulator. This dataset contains over 100K frames with fine-grained, instance-level occupancy ground truth at voxel resolutions as fine as 0.05 m. Furthermore, standardized evaluation metrics are introduced to quantify the quality of existing occupancy datasets. Finally, a systematic benchmark of representative models is established on the proposed dataset, which provides a unified platform for fair comparison and reproducible research in the field of 3D panoptic perception. Code and dataset are available at https://mias.group/CarlaOcc.
- Abstract(参考訳): パノプティカル占有予測は、統一された3次元シーン表現において、ボクセルのセマンティクスとインスタンスのアイデンティティを共同で推測することを目的としている。
それでもこの分野の進歩は、高品質な3Dメッシュリソース、インスタンスレベルのアノテーション、物理的に一貫した占有データセットの欠如によって制約を受け続けている。
既存のベンチマークは、通常、インスタンスレベルのアノテーションなしで不完全で低解像度の幾何学を提供し、正確な幾何学的再構成、信頼できるオクルージョン推論、そして全体論的3D理解を達成できるモデルの開発を制限する。
これらの課題に対処するために,本研究では,3次元パノプティクス占有予測タスクのインスタンス中心ベンチマークを提案する。
具体的には、15K以上の高品質な3Dモデルと多様なテクスチャとリッチなセマンティックアノテーションを統合した、自律運転に適した最初の統合3DメッシュライブラリであるADMeshを紹介する。
ADMeshをベースとして,CARLAシミュレータを用いた大規模で物理的に一貫した汎光学占有データセットであるCarlaOccを構築した。
このデータセットは100Kフレーム以上を含み、微細でインスタンスレベルの接地真理をボクセル分解能で0.05mまで細くしている。
さらに、既存の占有データセットの品質を定量化するために、標準化された評価指標が導入された。
最後に、提案したデータセットに代表モデルの体系的なベンチマークを定め、3次元パノプティ知覚の分野における公正な比較と再現可能な研究のための統一されたプラットフォームを提供する。
コードとデータセットはhttps://mias.group/CarlaOcc.orgで公開されている。
関連論文リスト
- Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence [78.1406635199656]
Holi-Spatialは、人間の介入なしに生のビデオ入力から構築された、初めて完全に自動化され、大規模で、空間対応のマルチモーダルデータセットである。
Holi-Spatial-4Mは、12K最適化された3DGSシーン、1.3Mの2Dマスク、320Kの3Dバウンディングボックス、320Kのインスタンスキャプション、1.2Mの3Dグラウンドインスタンス、1.2Mの空間QAペアを含む、最初の大規模で高品質な3Dセマンティックデータセットである。
論文 参考訳(メタデータ) (2026-03-08T14:49:20Z) - TFusionOcc: Student's t-Distribution Based Object-Centric Multi-Sensor Fusion Framework for 3D Occupancy Prediction [8.44168738898516]
本稿では,TFusionOccについて紹介する。TFusionOccは3次元セマンティック占有率を予測するためのオブジェクト中心型多センサ融合フレームワークである。
マルチステージマルチセンサ融合,学生のt-分布,T-Mixtureモデル(TMM)を活用することにより,提案手法はnuScenesベンチマークで最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2026-02-06T05:43:42Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Volumetric Semantically Consistent 3D Panoptic Mapping [77.13446499924977]
非構造環境における自律エージェントに適したセマンティック3Dマップを生成することを目的としたオンライン2次元から3次元のセマンティック・インスタンスマッピングアルゴリズムを提案する。
マッピング中にセマンティック予測の信頼性を統合し、セマンティックおよびインスタンス一貫性のある3D領域を生成する新しい方法を導入する。
提案手法は,パブリックな大規模データセット上での最先端の精度を実現し,多くの広く使用されているメトリクスを改善した。
論文 参考訳(メタデータ) (2023-09-26T08:03:10Z) - Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous
Driving [34.368848580725576]
我々は,任意のシーンに対して,濃密で可視性に配慮したラベルを生成するラベル生成パイプラインを開発した。
このパイプラインは、ボクセルの密度化、推論、画像誘導ボクセル精製の3段階からなる。
我々は、Occ3Dベンチマークにおいて優れた性能を示すCTF-Occネットワークと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:40:08Z) - H3D: Benchmark on Semantic Segmentation of High-Resolution 3D Point
Clouds and textured Meshes from UAV LiDAR and Multi-View-Stereo [4.263987603222371]
本稿では,3つの方法でユニークな3次元データセットを提案する。
ヘシグハイム(ドイツ語: Hessigheim, H3D)は、ドイツの都市。
片手で3次元データ分析の分野での研究を促進するとともに、新しいアプローチの評価とランク付けを目的としている。
論文 参考訳(メタデータ) (2021-02-10T09:33:48Z) - InfoFocus: 3D Object Detection for Autonomous Driving with Dynamic
Information Modeling [65.47126868838836]
動的情報モデリングを用いた新しい3次元オブジェクト検出フレームワークを提案する。
粗い予測は、ボクセルベースの領域提案ネットワークを介して第1段階で生成される。
大規模なnuScenes 3D検出ベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-07-16T18:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。