論文の概要: LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
- arxiv url: http://arxiv.org/abs/2508.03692v1
- Date: Tue, 05 Aug 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.116638
- Title: LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences
- Title(参考訳): LiDARCrafter: LiDARシーケンスからの動的4Dワールドモデリング
- Authors: Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi,
- Abstract要約: LiDARCrafterは、4D LiDARの生成と編集のための統一されたフレームワークである。
あらゆるレベルの忠実さ、可制御性、時間的一貫性において、最先端のパフォーマンスを達成する。
コードとベンチマークはコミュニティにリリースされている。
- 参考スコア(独自算出の注目度): 10.426609103049572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative world models have become essential data engines for autonomous driving, yet most existing efforts focus on videos or occupancy grids, overlooking the unique LiDAR properties. Extending LiDAR generation to dynamic 4D world modeling presents challenges in controllability, temporal coherence, and evaluation standardization. To this end, we present LiDARCrafter, a unified framework for 4D LiDAR generation and editing. Given free-form natural language inputs, we parse instructions into ego-centric scene graphs, which condition a tri-branch diffusion network to generate object structures, motion trajectories, and geometry. These structured conditions enable diverse and fine-grained scene editing. Additionally, an autoregressive module generates temporally coherent 4D LiDAR sequences with smooth transitions. To support standardized evaluation, we establish a comprehensive benchmark with diverse metrics spanning scene-, object-, and sequence-level aspects. Experiments on the nuScenes dataset using this benchmark demonstrate that LiDARCrafter achieves state-of-the-art performance in fidelity, controllability, and temporal consistency across all levels, paving the way for data augmentation and simulation. The code and benchmark are released to the community.
- Abstract(参考訳): 生成的世界モデルは自動運転に不可欠なデータエンジンとなっているが、既存の取り組みはビデオや占有グリッドに重点を置いており、ユニークなLiDAR特性を見下ろしている。
動的4次元世界モデリングへのLiDAR生成の拡張は、制御可能性、時間的コヒーレンス、評価標準化の課題を示す。
この目的のために,4次元LiDAR生成と編集のための統合フレームワークであるLiDARCrafterを提案する。
自由形式の自然言語入力が与えられた場合、命令をエゴ中心のシーングラフに解析し、オブジェクト構造、運動軌跡、幾何学を生成する三分岐拡散ネットワークを条件とする。
これらの構造化された条件は、多様できめ細かいシーン編集を可能にする。
さらに、自己回帰モジュールは、スムーズな遷移を伴う時間的にコヒーレントな4D LiDAR配列を生成する。
標準化された評価をサポートするため、シーンレベル、オブジェクトレベル、シーケンスレベルにまたがる様々なメトリクスを用いた総合的なベンチマークを構築した。
このベンチマークを使用したnuScenesデータセットの実験では、LiDARCrafterがすべてのレベルの忠実さ、可制御性、時間的一貫性で最先端のパフォーマンスを実現し、データ拡張とシミュレーションの道を開いたことが示されている。
コードとベンチマークはコミュニティにリリースされている。
関連論文リスト
- La La LiDAR: Large-Scale Layout Generation from LiDAR Data [45.5317990948996]
現実的なLiDARシーンの制御可能な生成は、自律運転やロボット工学といった応用に不可欠である。
レイアウト誘導型大規模LiDAR生成モデル(La La LiDAR)を提案する。
La La LiDARは、LiDAR生成と下流認識の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-05T17:59:55Z) - Genesis: Multimodal Driving Scene Generation with Spatio-Temporal and Cross-Modal Consistency [32.16082566679126]
本稿では、駆動ビデオとLiDARシーケンスの合同生成のための統一的なフレームワークを提案する。
我々は,3D-VAEモダリティにDiTベースのビデオ拡散モデルを統合する2段階アーキテクチャと,NeRFベースのレンダリングと適応サンプリングを備えたBEV対応LiDARジェネレータを用いる。
構造化セマンティクスで生成をガイドするために,シーンレベルとインスタンス言語を統括する視覚レベルモデル上に構築されたキャプションモジュールであるDataCrafterを紹介する。
論文 参考訳(メタデータ) (2025-06-09T07:20:49Z) - UnIRe: Unsupervised Instance Decomposition for Dynamic Urban Scene Reconstruction [27.334884564978907]
シーンを静的な背景と個々の動的インスタンスに分解する3D Splatting (3DGS)ベースのアプローチであるUnIReを提案する。
中心となる4Dスーパーポイントは、多フレームLiDAR点を4D空間にクラスタ化する新しい表現である。
実験により,本手法は動的シーン再構成において,高精度かつ柔軟なインスタンスレベルの編集を可能にしながら,既存の手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-04-01T13:15:58Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving [74.06413946934002]
OLiDMはオブジェクトとシーンレベルの両方で高忠実度LiDARデータを生成できる新しいフレームワークである。
OLiDMは、Object-Scene Progressive Generation (OPG) モジュールとObject Semantic Alignment (OSA) モジュールの2つの重要なコンポーネントで構成されている。
OPGは、ユーザ固有のプロンプトに適応して、望まれる前景オブジェクトを生成し、その後、シーン生成の条件として使用される。
OSAは、前景のオブジェクトと背景のシーンとの不一致を是正し、生成されたオブジェクトの全体的な品質を高めることを目的としている。
論文 参考訳(メタデータ) (2024-12-23T02:43:29Z) - DynamicCity: Large-Scale 4D Occupancy Generation from Dynamic Scenes [61.07023022220073]
大規模で高品質な動的4Dシーンをセマンティクスで生成できる新しい4D占有率生成フレームワークであるDynamicCityを紹介する。
特にDynamicCityは、新しいプロジェクションモジュールを使用して、4D機能を6つの2D特徴マップに効果的に圧縮し、HexPlaneの構築を可能にしている。
本研究では,3次元特徴量を並列に再構成する拡張・スキーズ戦略を用いて,ネットワークトレーニングの効率化と再現精度の向上を図る。
論文 参考訳(メタデータ) (2024-10-23T17:59:58Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [50.808933338389686]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving [58.16024314532443]
我々は、異なるLiDARスキャンからレーザービーム操作を統合するフレームワークであるLaserMix++を導入し、データ効率の学習を支援するためにLiDAR-カメラ対応を組み込んだ。
結果は、LaserMix++が完全に教師付き代替よりも優れており、5倍のアノテーションで同等の精度を実現していることを示している。
この大幅な進歩は、LiDARベースの3Dシーン理解システムにおける広範囲なラベル付きデータへの依存を減らすための半教師付きアプローチの可能性を示している。
論文 参考訳(メタデータ) (2024-05-08T17:59:53Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - LidarDM: Generative LiDAR Simulation in a Generated World [21.343346521878864]
LidarDMは、リアルでレイアウト対応で、物理的に可視で、時間的に一貫性のあるLiDARビデオを生成することができる、新しいLiDAR生成モデルである。
我々は3次元シーンを生成するために潜時拡散モデルを使用し、それを動的アクターと組み合わせて基礎となる4次元世界を形成し、この仮想環境内で現実的な感覚観察を生成する。
提案手法は,現実性,時間的コヒーレンシ,レイアウト整合性において,競合するアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:28Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,両タスクの現在の最先端手法よりも優れた精度を実現する。
DS-Netを4次元パノプティカルLiDARセグメンテーションに拡張し、一列のLiDARフレーム上で時間的に統一されたインスタンスクラスタリングを行う。
論文 参考訳(メタデータ) (2022-03-14T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。