Fugu-MT 論文翻訳(概要): DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

論文の概要: DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation

arxiv url: http://arxiv.org/abs/2403.06845v1
Date: Mon, 11 Mar 2024 16:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 18:26:14.888055
Title: DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video Generation
Title（参考訳）: DriveDreamer-2:横駆動ビデオ生成のためのLLM拡張ワールドモデル
Authors: Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang, Xiaoyi Bao, Xingang Wang
Abstract要約: 本稿では,DriveDreamerをベースとしたDriveDreamer-2を提案する。最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。
参考スコア（独自算出の注目度）: 33.92429254620946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models have demonstrated superiority in autonomous driving, particularly in the generation of multi-view driving videos. However, significant challenges still exist in generating customized driving videos. In this paper, we propose DriveDreamer-2, which builds upon the framework of DriveDreamer and incorporates a Large Language Model (LLM) to generate user-defined driving videos. Specifically, an LLM interface is initially incorporated to convert a user's query into agent trajectories. Subsequently, a HDMap, adhering to traffic regulations, is generated based on the trajectories. Ultimately, we propose the Unified Multi-View Model to enhance temporal and spatial coherence in the generated driving videos. DriveDreamer-2 is the first world model to generate customized driving videos, it can generate uncommon driving videos (e.g., vehicles abruptly cut in) in a user-friendly manner. Besides, experimental results demonstrate that the generated videos enhance the training of driving perception methods (e.g., 3D detection and tracking). Furthermore, video generation quality of DriveDreamer-2 surpasses other state-of-the-art methods, showcasing FID and FVD scores of 11.2 and 55.7, representing relative improvements of 30% and 50%.
Abstract（参考訳）: 世界モデルは、特にマルチビュー駆動ビデオの生成において、自律運転において優位性を示している。しかし、カスタマイズされた運転ビデオの作成には依然として大きな課題がある。本稿では,drivedreamerのフレームワークを基盤として,ユーザ定義の駆動ビデオを生成するための大規模言語モデル(llm)を組み込んだdrivedreamer-2を提案する。具体的には、最初にllmインターフェースが組み込まれて、ユーザのクエリをエージェントのトラジェクタに変換する。その後、トラジェクトリに基づいて、交通規制を遵守したHDMapが生成される。最終的に,生成された駆動映像の時間的および空間的コヒーレンスを高めるために,統合マルチビューモデルを提案する。 DriveDreamer-2は、カスタマイズされた運転ビデオを生成する最初の世界モデルであり、ユーザーフレンドリーな方法で非日常的な運転ビデオ(例えば、車両が突然カットされる)を生成することができる。また,実験により,生成した映像が運転知覚の訓練(3d検出や追跡など)を強化することが示された。さらに、DriveDreamer-2のビデオ生成品質は他の最先端の手法を超え、FIDとFVDのスコアは11.2と55.7で、30%と50%の相対的な改善を示している。

関連論文リスト

InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文参考訳（メタデータ） (2026-02-03T08:22:13Z)
GenieDrive: Towards Physics-Aware Driving World Model with 4D Occupancy Guided Video Generation [80.1493315900789]
我々は物理対応駆動ビデオ生成のためのフレームワークGenieDriveを提案する。われわれのアプローチは、4Dの占有率の生成から始まり、これはその後のビデオ生成の物理インフォームド基盤として機能する。実験により、GenieDriveは高度に制御可能で、複数ビューの一貫性があり、物理対応の駆動ビデオ生成を可能にする。
論文参考訳（メタデータ） (2025-12-14T16:23:51Z)
Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks [33.747369815484326]
下流認識タスクを強化するための新しい合成データ生成フレームワークであるDream4Driveを紹介する。 Dream4Driveは入力ビデオを複数の3D対応誘導マップに分解し、これらの誘導マップに3Dアセットをレンダリングする。駆動世界モデルは、下流の知覚モデルをトレーニングするために使用できる編集されたマルチビュービデオを作成するために微調整される。
論文参考訳（メタデータ） (2025-10-22T03:02:38Z)
DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文参考訳（メタデータ） (2024-12-31T18:59:57Z)
Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。 CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。 CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文参考訳（メタデータ） (2024-12-04T18:02:49Z)
MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。 MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-21T03:13:30Z)
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation [32.19534057884047]
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
論文参考訳（メタデータ） (2024-10-17T14:07:46Z)
DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文参考訳（メタデータ） (2024-10-14T17:19:23Z)
DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。 DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文参考訳（メタデータ） (2024-09-09T09:43:17Z)
DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。レーンと前景の生成を向上するために、視点誘導を導入し、オブジェクト指向位置符号化を統合する。また,映像中の動きの手がかりや外観の変化を捉えた時間的注意も提案する。
論文参考訳（メタデータ） (2024-09-06T03:09:58Z)
DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文参考訳（メタデータ） (2024-08-29T15:52:56Z)
GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-03-14T17:58:33Z)
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。 DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文参考訳（メタデータ） (2023-12-07T16:57:26Z)
Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文参考訳（メタデータ） (2023-11-29T18:59:47Z)
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。 DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文参考訳（メタデータ） (2023-09-18T13:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。