Fugu-MT 論文翻訳(概要): DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

論文の概要: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

arxiv url: http://arxiv.org/abs/2410.13571v2
Date: Mon, 21 Oct 2024 09:15:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.94185
Title: DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation
Title（参考訳）: DriveDreamer4D:世界モデルは4D運転シーン表現に有効なデータマシン
Authors: Guosheng Zhao, Chaojun Ni, Xiaofeng Wang, Zheng Zhu, Xueyang Zhang, Yida Wang, Guan Huang, Xinze Chen, Boyuan Wang, Youyi Zhang, Wenjun Mei, Xingang Wang,
Abstract要約: 本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。具体的には、実世界の運転データに基づいて、新しい軌跡映像を合成するために、ワールドモデルをデータマシンとして利用する。われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
参考スコア（独自算出の注目度）: 32.19534057884047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Closed-loop simulation is essential for advancing end-to-end autonomous driving systems. Contemporary sensor simulation methods, such as NeRF and 3DGS, rely predominantly on conditions closely aligned with training data distributions, which are largely confined to forward-driving scenarios. Consequently, these methods face limitations when rendering complex maneuvers (e.g., lane change, acceleration, deceleration). Recent advancements in autonomous-driving world models have demonstrated the potential to generate diverse driving videos. However, these approaches remain constrained to 2D video generation, inherently lacking the spatiotemporal coherence required to capture intricacies of dynamic driving environments. In this paper, we introduce DriveDreamer4D, which enhances 4D driving scene representation leveraging world model priors. Specifically, we utilize the world model as a data machine to synthesize novel trajectory videos based on real-world driving data. Notably, we explicitly leverage structured conditions to control the spatial-temporal consistency of foreground and background elements, thus the generated data adheres closely to traffic constraints. To our knowledge, DriveDreamer4D is the first to utilize video generation models for improving 4D reconstruction in driving scenarios. Experimental results reveal that DriveDreamer4D significantly enhances generation quality under novel trajectory views, achieving a relative improvement in FID by 24.5%, 39.0%, and 10.5% compared to PVG, S3Gaussian, and Deformable-GS. Moreover, DriveDreamer4D markedly enhances the spatiotemporal coherence of driving agents, which is verified by a comprehensive user study and the relative increases of 20.3%, 42.0%, and 13.7% in the NTA-IoU metric.
Abstract（参考訳）: 閉ループシミュレーションは、エンド・ツー・エンドの自動運転システムに不可欠である。現代のセンサシミュレーション手法であるNeRFや3DGSは、主に前方走行のシナリオに限られるトレーニングデータ分布と密接に整合した条件に依存している。その結果、複雑な操作(例えば、車線変更、加速、減速)をレンダリングする場合、これらの手法は制限に直面します。自動運転の世界モデルの最近の進歩は、多様な運転ビデオを生成する可能性を実証している。しかし、これらのアプローチは、動的駆動環境の複雑さを捉えるのに必要な時空間コヒーレンスを欠いているため、2Dビデオ生成に制約が残されている。本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。具体的には、実世界の運転データに基づいて、新しい軌跡映像を合成するために、ワールドモデルをデータマシンとして利用する。特に,前景および背景要素の空間的時間的整合性を制御するために,構造化条件を明示的に活用するので,生成したデータは交通制約に密接に依存する。われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。 DriveDreamer4Dは、PVG、S3Gaussian、Deformable-GSと比較して、FIDの24.5%、39.0%、および10.5%の相対的な改善を実現している。さらに、DriveDreamer4Dは運転エージェントの時空間コヒーレンスを著しく向上させ、NTA-IoU測定値の20.3%、42.0%、13.7%の相対的な増加を総合的なユーザスタディで検証した。

関連論文リスト

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control [50.67481583744243]
実世界モデルにロバストな3次元形状条件を明示的に統合したGeoDriveを紹介する。車両の位置を編集することでレンダリングを強化するため,トレーニング中の動的編集モジュールを提案する。動作精度と空間認識の両面で既存のモデルよりも優れていた。
論文参考訳（メタデータ） (2025-05-28T14:46:51Z)
CoDa-4DGS: Dynamic Gaussian Splatting with Context and Deformation Awareness for Autonomous Driving [12.006435326659526]
ダイナミックなシーンレンダリングを改善するために,新しい4次元ガウススプラッティング(4DGS)手法を提案する。具体的には,2次元セマンティックセグメンテーション基盤モデルを用いて,ガウスの4次元セマンティック特徴を自己監督する。意味的変形特徴と時間的変形特徴の両方を集約して符号化することにより、各ガウスは潜在的な変形補償のための手がかりを備える。
論文参考訳（メタデータ） (2025-03-09T19:58:51Z)
DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models [22.21497010925769]
DriveGenは、より多様なトラフィック生成のための大きなモデルを備えた、新しいトラフィックシミュレーションフレームワークである。 DriveGenは、大規模モデルのハイレベルな認識と運転行動の推論を完全に活用する。生成したシナリオとコーナーケースは、最先端のベースラインよりも優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-03-04T06:14:21Z)
DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文参考訳（メタデータ） (2024-12-31T18:59:57Z)
Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。 Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文参考訳（メタデータ） (2024-12-06T18:59:56Z)
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration [30.755679955159504]
ReconDreamerは、世界モデル知識の漸進的な統合を通じて、ドライブシーンの再構築を強化する。私たちの知る限りでは、ReconDreamerは大規模な操作で効果的にレンダリングする最初の方法です。
論文参考訳（メタデータ） (2024-11-29T08:47:46Z)
DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation [54.02069690134526]
本研究では,現実的でクローズドループなシミュレーションフレームワークであるDrivingSphereを提案する。その中核となる考え方は、4Dの世界表現を構築し、実生活と制御可能な運転シナリオを生成することである。動的で現実的なシミュレーション環境を提供することで、DrivingSphereは自律運転アルゴリズムの包括的なテストと検証を可能にする。
論文参考訳（メタデータ） (2024-11-18T03:00:33Z)
Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。本研究では, 速度, 操舵角度, 軌道, 指令などの柔軟な動作条件を世界モデルに注入することを提案する。 nuScenesデータセットの実験により,本手法は可塑性かつ制御可能な4D占有率を生成可能であることが示された。
論文参考訳（メタデータ） (2024-08-26T11:53:09Z)
End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文参考訳（メタデータ） (2024-06-25T16:12:52Z)
OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。 OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文参考訳（メタデータ） (2024-05-30T17:59:42Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。我々の手法は、品質と効率の両面で既存の手法を超越している。動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文参考訳（メタデータ） (2024-04-04T18:05:18Z)
TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文参考訳（メタデータ） (2024-03-26T17:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。