論文の概要: Learning to Generate 4D LiDAR Sequences
- arxiv url: http://arxiv.org/abs/2509.11959v1
- Date: Mon, 15 Sep 2025 14:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.328888
- Title: Learning to Generate 4D LiDAR Sequences
- Title(参考訳): 4次元LiDARシーケンス生成の学習
- Authors: Ao Liang, Youquan Liu, Yu Yang, Dongyue Lu, Linfeng Li, Lingdong Kong, Huaici Zhao, Wei Tsang Ooi,
- Abstract要約: 本稿では,自由形式言語を編集可能なLiDARシーケンスに変換する統一フレームワークLiDARCrafterを提案する。
LiDARCrafterは最先端の忠実さ、コントロール可能性、時間的一貫性を実現し、LiDARベースのシミュレーションとデータ拡張の基礎を提供する。
- 参考スコア(独自算出の注目度): 28.411253849111755
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While generative world models have advanced video and occupancy-based data synthesis, LiDAR generation remains underexplored despite its importance for accurate 3D perception. Extending generation to 4D LiDAR data introduces challenges in controllability, temporal stability, and evaluation. We present LiDARCrafter, a unified framework that converts free-form language into editable LiDAR sequences. Instructions are parsed into ego-centric scene graphs, which a tri-branch diffusion model transforms into object layouts, trajectories, and shapes. A range-image diffusion model generates the initial scan, and an autoregressive module extends it into a temporally coherent sequence. The explicit layout design further supports object-level editing, such as insertion or relocation. To enable fair assessment, we provide EvalSuite, a benchmark spanning scene-, object-, and sequence-level metrics. On nuScenes, LiDARCrafter achieves state-of-the-art fidelity, controllability, and temporal consistency, offering a foundation for LiDAR-based simulation and data augmentation.
- Abstract(参考訳): 生成的世界モデルには高度なビデオと占有率に基づくデータ合成があるが、正確な3D知覚の重要性にもかかわらず、LiDAR生成は未発見のままである。
生成を4D LiDARデータに拡張することは、制御性、時間安定性、評価の課題をもたらす。
本稿では,自由形式言語を編集可能なLiDARシーケンスに変換する統一フレームワークLiDARCrafterを提案する。
インストラクションはエゴ中心のシーングラフに解析され、トリブランチ拡散モデルがオブジェクトレイアウト、軌跡、形状に変換する。
範囲画像拡散モデルが初期スキャンを生成し、自己回帰モジュールが時間的にコヒーレントなシーケンスに拡張する。
明示的なレイアウト設計では、挿入や再配置といったオブジェクトレベルの編集もサポートしている。
公平な評価を可能にするため、シーンレベル、オブジェクトレベル、シーケンスレベルのメトリクスにまたがるベンチマークであるEvalSuiteを提供する。
nuScenesでは、LiDARCrafterが最先端の忠実さ、コントロール可能性、時間的一貫性を実現し、LiDARベースのシミュレーションとデータ拡張の基礎を提供する。
関連論文リスト
- 3D and 4D World Modeling: A Survey [104.20852751473392]
世界モデリングはAI研究の基盤となり、エージェントが住んでいる動的な環境を理解し、表現し、予測することができるようになった。
我々は、ビデオベース(VideoGen)、占領ベース(OccGen)、LiDARベース(LiDARGen)のアプローチにまたがる構造的分類法を導入する。
実践的応用について議論し、オープン課題を特定し、有望な研究方向性を明らかにする。
論文 参考訳(メタデータ) (2025-09-04T17:59:58Z) - LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences [28.411253849111755]
LiDARCrafterは、4D LiDARの生成と編集のための統一されたフレームワークである。
あらゆるレベルの忠実さ、可制御性、時間的一貫性において、最先端のパフォーマンスを達成する。
コードとベンチマークはコミュニティにリリースされている。
論文 参考訳(メタデータ) (2025-08-05T17:59:56Z) - La La LiDAR: Large-Scale Layout Generation from LiDAR Data [45.5317990948996]
現実的なLiDARシーンの制御可能な生成は、自律運転やロボット工学といった応用に不可欠である。
レイアウト誘導型大規模LiDAR生成モデル(La La LiDAR)を提案する。
La La LiDARは、LiDAR生成と下流認識の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-05T17:59:55Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - LiDAR-GS:Real-time LiDAR Re-Simulation using Gaussian Splatting [50.808933338389686]
都市景観におけるLiDARスキャンをリアルタイムかつ高忠実に再現するLiDAR-GSを提案する。
この手法は,公開可能な大規模シーンデータセットのレンダリングフレームレートと品質の両面において,最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-07T15:07:56Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Just Add $100 More: Augmenting NeRF-based Pseudo-LiDAR Point Cloud for Resolving Class-imbalance Problem [12.26293873825084]
本稿では,小クラスのミニチュアや現実世界のオブジェクトのサラウンドビューをキャプチャしたビデオから生成された擬似LiDAR点雲を活用することを提案する。
Pseudo Ground Truth Aug (PGT-Aug) と呼ばれるこの手法は, (i) 2D-to-3Dビュー合成モデルを用いたボリューム3Dインスタンス再構成, (ii)LiDAR強度推定によるオブジェクトレベルドメインアライメント, (iii) 地上情報と地図情報からのコンテキスト認識配置のハイブリッド化という3つのステップから構成される。
論文 参考訳(メタデータ) (2024-03-18T08:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。