論文の概要: DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT
- arxiv url: http://arxiv.org/abs/2412.19505v2
- Date: Mon, 30 Dec 2024 09:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 12:42:29.054017
- Title: DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT
- Title(参考訳): ドライビングワールド:ビデオGPTによる自動運転のための世界モデルの構築
- Authors: Xiaotao Hu, Wei Yin, Mingkai Jia, Junyuan Deng, Xiaoyang Guo, Qian Zhang, Xiaoxiao Long, Ping Tan,
- Abstract要約: 我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
- 参考スコア(独自算出の注目度): 33.943125216555316
- License:
- Abstract: Recent successes in autoregressive (AR) generation models, such as the GPT series in natural language processing, have motivated efforts to replicate this success in visual tasks. Some works attempt to extend this approach to autonomous driving by building video-based world models capable of generating realistic future video sequences and predicting ego states. However, prior works tend to produce unsatisfactory results, as the classic GPT framework is designed to handle 1D contextual information, such as text, and lacks the inherent ability to model the spatial and temporal dynamics essential for video generation. In this paper, we present DrivingWorld, a GPT-style world model for autonomous driving, featuring several spatial-temporal fusion mechanisms. This design enables effective modeling of both spatial and temporal dynamics, facilitating high-fidelity, long-duration video generation. Specifically, we propose a next-state prediction strategy to model temporal coherence between consecutive frames and apply a next-token prediction strategy to capture spatial information within each frame. To further enhance generalization ability, we propose a novel masking strategy and reweighting strategy for token prediction to mitigate long-term drifting issues and enable precise control. Our work demonstrates the ability to produce high-fidelity and consistent video clips of over 40 seconds in duration, which is over 2 times longer than state-of-the-art driving world models. Experiments show that, in contrast to prior works, our method achieves superior visual quality and significantly more accurate controllable future video generation. Our code is available at https://github.com/YvanYin/DrivingWorld.
- Abstract(参考訳): 近年、自然言語処理におけるGPTシリーズのような自己回帰(AR)生成モデルの成功は、この成功を視覚タスクで再現する努力を動機付けている。
いくつかの研究は、現実的な未来のビデオシーケンスを生成し、エゴ状態を予測できるビデオベースの世界モデルを構築することで、このアプローチを自律運転に拡張しようとしている。
しかし、従来のGPTフレームワークはテキストのような1次元の文脈情報を扱うように設計されており、ビデオ生成に不可欠な空間的・時間的ダイナミクスをモデル化する能力が欠如しているため、以前の研究は不満足な結果をもたらす傾向にある。
本稿では,自律運転のためのGPTスタイルの世界モデルであるドライビングワールドについて述べる。
この設計により、空間力学と時間力学の両方を効果的にモデル化することができ、高忠実で長期の動画生成を容易にする。
具体的には,連続するフレーム間の時間的コヒーレンスをモデル化する次状態予測戦略を提案し,各フレーム内の空間情報をキャプチャするための次状態予測戦略を適用した。
一般化能力をさらに向上するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案し,長期ドリフト問題を緩和し,正確な制御を可能にする。
我々の研究は、40秒以上の高忠実で一貫したビデオクリップを作成できることを示し、これは最先端の運転世界モデルより2倍長くなる。
実験により,従来の手法とは対照的に,より優れた視覚的品質と,より正確に制御可能な将来の映像生成を実現することができた。
私たちのコードはhttps://github.com/YvanYin/DrivingWorld.comで利用可能です。
関連論文リスト
- MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。
MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。
実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation [20.88042649759396]
空間的整合性を高めるために,多視点にわたって共有ノイズモデリング機構を備えた拡散型長ビデオ生成手法を提案する。
本手法は,最先端の手法に比べて約5倍長くなる一貫性を損なうことなく,最大40フレームの映像を生成することができる。
我々のフレームワークは、認識と予測タスクを超えて、エンド・ツー・エンドの自動運転モデルの計画性能を25%向上させることができます。
論文 参考訳(メタデータ) (2024-06-03T14:13:13Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。