論文の概要: Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model
- arxiv url: http://arxiv.org/abs/2412.05280v2
- Date: Wed, 11 Dec 2024 02:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:24.194836
- Title: Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model
- Title(参考訳): Stag-1:映像生成モデルによるリアルな4次元運転シミュレーションを目指して
- Authors: Lening Wang, Wenzhao Zheng, Dalong Du, Yunpeng Zhang, Yilong Ren, Han Jiang, Zhiyong Cui, Haiyang Yu, Jie Zhou, Jiwen Lu, Shanghang Zhang,
- Abstract要約: 本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
- 参考スコア(独自算出の注目度): 83.31688383891871
- License:
- Abstract: 4D driving simulation is essential for developing realistic autonomous driving simulators. Despite advancements in existing methods for generating driving scenes, significant challenges remain in view transformation and spatial-temporal dynamic modeling. To address these limitations, we propose a Spatial-Temporal simulAtion for drivinG (Stag-1) model to reconstruct real-world scenes and design a controllable generative network to achieve 4D simulation. Stag-1 constructs continuous 4D point cloud scenes using surround-view data from autonomous vehicles. It decouples spatial-temporal relationships and produces coherent keyframe videos. Additionally, Stag-1 leverages video generation models to obtain photo-realistic and controllable 4D driving simulation videos from any perspective. To expand the range of view generation, we train vehicle motion videos based on decomposed camera poses, enhancing modeling capabilities for distant scenes. Furthermore, we reconstruct vehicle camera trajectories to integrate 3D points across consecutive views, enabling comprehensive scene understanding along the temporal dimension. Following extensive multi-level scene training, Stag-1 can simulate from any desired viewpoint and achieve a deep understanding of scene evolution under static spatial-temporal conditions. Compared to existing methods, our approach shows promising performance in multi-view scene consistency, background coherence, and accuracy, and contributes to the ongoing advancements in realistic autonomous driving simulation. Code: https://github.com/wzzheng/Stag.
- Abstract(参考訳): 4次元運転シミュレーションは現実的な自律運転シミュレータの開発に不可欠である。
既存のドライビングシーン生成手法の進歩にもかかわらず、ビュートランスフォーメーションや時空間動的モデリングには大きな課題が残っている。
これらの制約に対処するために,現実世界のシーンを再構成し,4次元シミュレーションを実現するための制御可能な生成ネットワークを設計するための,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントなキーフレームビデオを生成する。
さらに、Stag-1はビデオ生成モデルを利用して、任意の視点から写真リアリスティックで制御可能な4D駆動シミュレーションビデオを得る。
ビュー生成の範囲を広げるために、分解されたカメラのポーズに基づいて車両の動き映像を訓練し、遠景のモデリング能力を向上する。
さらに,車載カメラトラジェクトリを再構築し,連続的な視点で3Dポイントを統合することで,時間次元に沿った総合的なシーン理解を可能にする。
広範囲にわたるマルチレベルシーントレーニングの後、Stag-1は任意の視点からシミュレートし、静的な時空間条件下でのシーン進化の深い理解を実現する。
従来の手法と比較して,マルチビューシーンの一貫性,背景コヒーレンス,精度が期待できる性能を示し,現実的な自律運転シミュレーションの進歩に寄与する。
コード:https://github.com/wzzheng/Stag
関連論文リスト
- DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation [54.02069690134526]
本研究では,現実的でクローズドループなシミュレーションフレームワークであるDrivingSphereを提案する。
その中核となる考え方は、4Dの世界表現を構築し、実生活と制御可能な運転シナリオを生成することである。
動的で現実的なシミュレーション環境を提供することで、DrivingSphereは自律運転アルゴリズムの包括的なテストと検証を可能にする。
論文 参考訳(メタデータ) (2024-11-18T03:00:33Z) - AutoSplat: Constrained Gaussian Splatting for Autonomous Driving Scene Reconstruction [17.600027937450342]
AutoSplatは、自動走行シーンの高度に現実的な再構築を実現するために、ガウシアンスプラッティングを使用したフレームワークである。
本手法は,車線変更を含む課題シナリオの多視点一貫したシミュレーションを可能にする。
論文 参考訳(メタデータ) (2024-07-02T18:36:50Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting [32.59889755381453]
近年の手法では、走行中の車両のポーズをアニメーションに取り入れてNeRFを拡張し、ダイナミックな街路シーンのリアルな視認を可能にしている。
この制限に対処する新たな明示的なシーン表現であるStreet Gaussiansを紹介します。
提案手法は,全データセットで常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-02T18:59:55Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving
Without Real Data [56.49494318285391]
我々は、オフロード自動運転の視覚的現実的ギャップを横断するRCANを再想像するSim2Segを紹介する。
これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深さマップに変換する学習によって行われる。
これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。
論文 参考訳(メタデータ) (2022-10-25T17:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。