論文の概要: Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method
- arxiv url: http://arxiv.org/abs/2510.22973v1
- Date: Mon, 27 Oct 2025 03:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.440573
- Title: Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method
- Title(参考訳): 業務中心の運転シーン生成のスケールアップ:データセットと方法
- Authors: Bohan Li, Xin Jin, Hu Zhu, Hongsi Liu, Ruikai Li, Jiazhe Guo, Kaiwen Cai, Chao Ma, Yueming Jin, Hao Zhao, Xiaokang Yang, Wenjun Zeng,
- Abstract要約: 作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
- 参考スコア(独自算出の注目度): 54.461213497603154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driving scene generation is a critical domain for autonomous driving, enabling downstream applications, including perception and planning evaluation. Occupancy-centric methods have recently achieved state-of-the-art results by offering consistent conditioning across frames and modalities; however, their performance heavily depends on annotated occupancy data, which still remains scarce. To overcome this limitation, we curate Nuplan-Occ, the largest semantic occupancy dataset to date, constructed from the widely used Nuplan benchmark. Its scale and diversity facilitate not only large-scale generative modeling but also autonomous driving downstream applications. Based on this dataset, we develop a unified framework that jointly synthesizes high-quality semantic occupancy, multi-view videos, and LiDAR point clouds. Our approach incorporates a spatio-temporal disentangled architecture to support high-fidelity spatial expansion and temporal forecasting of 4D dynamic occupancy. To bridge modal gaps, we further propose two novel techniques: a Gaussian splatting-based sparse point map rendering strategy that enhances multi-view video generation, and a sensor-aware embedding strategy that explicitly models LiDAR sensor properties for realistic multi-LiDAR simulation. Extensive experiments demonstrate that our method achieves superior generation fidelity and scalability compared to existing approaches, and validates its practical value in downstream tasks. Repo: https://github.com/Arlo0o/UniScene-Unified-Occupancy-centric-Driving-Scene-Generation/tree/v2
- Abstract(参考訳): 運転シーン生成は自動運転にとって重要な領域であり、認識や計画評価を含む下流アプリケーションを可能にする。
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得たが、その性能は、まだ不足している注釈付き占有データに大きく依存している。
この制限を克服するために、広く使われているNuplanベンチマークから構築された、これまでで最大のセマンティック占有データセットであるNuplan-Occをキュレートする。
そのスケールと多様性は、大規模な生成モデルだけでなく、下流の自律運転アプリケーションも促進する。
このデータセットに基づいて、高品質なセマンティック占有、マルチビュービデオ、LiDARポイントクラウドを共同で合成する統合フレームワークを開発する。
提案手法は,高忠実度空間展開と4次元動的占有の時間的予測を支援するために,時空間異方性アーキテクチャを組み込んだものである。
さらに,マルチビュー映像生成を向上するガウススプラッティングに基づくスパースポイントマップレンダリング戦略と,リアルなマルチLiDARシミュレーションのためのLiDARセンサ特性を明示的にモデル化するセンサ・アウェア・埋め込み戦略の2つの新しい手法を提案する。
大規模な実験により,本手法は既存手法よりも優れた世代忠実度とスケーラビリティを実現し,下流タスクにおける実用的価値を検証した。
Repo: https://github.com/Arlo0o/UniScene-Unified-Occupancy-centric-Driving-Scene-Generation/tree/v2
関連論文リスト
- ROVR-Open-Dataset: A Large-Scale Depth Dataset for Autonomous Driving [62.9051914830949]
実世界の運転の複雑さを捉えるために設計された,大規模で多様で費用効率のよい深度データセットであるROVRを提案する。
軽量な取得パイプラインは、スケーラブルなコレクションを保証すると同時に、統計的に十分な基礎的真実は堅牢なトレーニングをサポートする。
最先端の単分子深度モデルによるベンチマークでは、厳密なクロスデータセットの一般化失敗が示される。
論文 参考訳(メタデータ) (2025-08-19T16:13:49Z) - TopoLiDM: Topology-Aware LiDAR Diffusion Models for Interpretable and Realistic LiDAR Point Cloud Generation [15.223634903890863]
TopoLiDMは、高忠実度LiDAR生成のためのトポロジカル正規化の下で、グラフニューラルネットワークと拡散モデルを統合する新しいフレームワークである。
我々のアプローチはまず、グラフ構造と複数のグラフ畳み込み層によって潜在グラフ表現を抽出するために、位相保存型VAEを訓練する。
KITTI-360データセットの大規模な実験は、最先端の手法よりもTopoLiDMの方が優れていることを示している。
論文 参考訳(メタデータ) (2025-07-30T08:02:42Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - ACT-Bench: Towards Action Controllable World Models for Autonomous Driving [2.6749009435602122]
世界モデルは自律運転のための有望な神経シミュレータとして登場した。
動作の忠実度を定量化するためのオープンアクセス評価フレームワーク ACT-Bench を開発した。
現状のモデルが与えられた指示に完全に従わないことを示す一方で,Terraは改善された行動忠実性を実現する。
論文 参考訳(メタデータ) (2024-12-06T01:06:28Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。