論文の概要: DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video
Generation
- arxiv url: http://arxiv.org/abs/2403.06845v1
- Date: Mon, 11 Mar 2024 16:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 18:26:14.888055
- Title: DriveDreamer-2: LLM-Enhanced World Models for Diverse Driving Video
Generation
- Title(参考訳): DriveDreamer-2:横駆動ビデオ生成のためのLLM拡張ワールドモデル
- Authors: Guosheng Zhao, Xiaofeng Wang, Zheng Zhu, Xinze Chen, Guan Huang,
Xiaoyi Bao, Xingang Wang
- Abstract要約: 本稿では,DriveDreamerをベースとしたDriveDreamer-2を提案する。
最終的に、生成した駆動ビデオの時間的・空間的コヒーレンスを高めるための統一多視点モデルを提案する。
- 参考スコア(独自算出の注目度): 33.92429254620946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have demonstrated superiority in autonomous driving,
particularly in the generation of multi-view driving videos. However,
significant challenges still exist in generating customized driving videos. In
this paper, we propose DriveDreamer-2, which builds upon the framework of
DriveDreamer and incorporates a Large Language Model (LLM) to generate
user-defined driving videos. Specifically, an LLM interface is initially
incorporated to convert a user's query into agent trajectories. Subsequently, a
HDMap, adhering to traffic regulations, is generated based on the trajectories.
Ultimately, we propose the Unified Multi-View Model to enhance temporal and
spatial coherence in the generated driving videos. DriveDreamer-2 is the first
world model to generate customized driving videos, it can generate uncommon
driving videos (e.g., vehicles abruptly cut in) in a user-friendly manner.
Besides, experimental results demonstrate that the generated videos enhance the
training of driving perception methods (e.g., 3D detection and tracking).
Furthermore, video generation quality of DriveDreamer-2 surpasses other
state-of-the-art methods, showcasing FID and FVD scores of 11.2 and 55.7,
representing relative improvements of 30% and 50%.
- Abstract(参考訳): 世界モデルは、特にマルチビュー駆動ビデオの生成において、自律運転において優位性を示している。
しかし、カスタマイズされた運転ビデオの作成には依然として大きな課題がある。
本稿では,drivedreamerのフレームワークを基盤として,ユーザ定義の駆動ビデオを生成するための大規模言語モデル(llm)を組み込んだdrivedreamer-2を提案する。
具体的には、最初にllmインターフェースが組み込まれて、ユーザのクエリをエージェントのトラジェクタに変換する。
その後、トラジェクトリに基づいて、交通規制を遵守したHDMapが生成される。
最終的に,生成された駆動映像の時間的および空間的コヒーレンスを高めるために,統合マルチビューモデルを提案する。
DriveDreamer-2は、カスタマイズされた運転ビデオを生成する最初の世界モデルであり、ユーザーフレンドリーな方法で非日常的な運転ビデオ(例えば、車両が突然カットされる)を生成することができる。
また,実験により,生成した映像が運転知覚の訓練(3d検出や追跡など)を強化することが示された。
さらに、DriveDreamer-2のビデオ生成品質は他の最先端の手法を超え、FIDとFVDのスコアは11.2と55.7で、30%と50%の相対的な改善を示している。
関連論文リスト
- Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - G-MEMP: Gaze-Enhanced Multimodal Ego-Motion Prediction in Driving [71.9040410238973]
我々は、視線データを用いて、運転者の車両のエゴ軌道を推定することに集中する。
次に、GPSとビデオ入力と視線データを組み合わせた新しいマルチモーダルエゴ軌道予測ネットワークであるG-MEMPを開発する。
その結果,G-MEMPは両ベンチマークにおいて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - DriveDreamer: Towards Real-world-driven World Models for Autonomous
Driving [76.24483706445298]
実世界の運転シナリオから完全に派生した世界モデルであるDriveDreamerを紹介する。
最初の段階では、DriveDreamerは構造化されたトラフィックの制約を深く理解し、次の段階では将来の状態を予測できる。
DriveDreamerは、現実的で合理的な運転ポリシーの生成を可能にし、インタラクションと実用的なアプリケーションのための道を開く。
論文 参考訳(メタデータ) (2023-09-18T13:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。