論文の概要: Epona: Autoregressive Diffusion World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.24113v1
- Date: Mon, 30 Jun 2025 17:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.187367
- Title: Epona: Autoregressive Diffusion World Model for Autonomous Driving
- Title(参考訳): Epona: 自律運転のための自己回帰拡散世界モデル
- Authors: Kaiwen Zhang, Zhenyu Tang, Xiaotao Hu, Xingang Pan, Xiaoyang Guo, Yuan Liu, Jingwei Huang, Li Yuan, Qian Zhang, Xiao-Xiao Long, Xun Cao, Wei Yin,
- Abstract要約: 既存のビデオ拡散モデルは、柔軟で長い水平予測と軌道計画の統合に苦慮している。
これは、従来のビデオ拡散モデルは固定長フレーム列のグローバルな共同分布モデルに依存しているためである。
本研究では,局所分布モデリングが可能な自己回帰的世界モデルであるEponaを提案する。
- 参考スコア(独自算出の注目度): 39.389981627403316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated exceptional visual quality in video generation, making them promising for autonomous driving world modeling. However, existing video diffusion-based world models struggle with flexible-length, long-horizon predictions and integrating trajectory planning. This is because conventional video diffusion models rely on global joint distribution modeling of fixed-length frame sequences rather than sequentially constructing localized distributions at each timestep. In this work, we propose Epona, an autoregressive diffusion world model that enables localized spatiotemporal distribution modeling through two key innovations: 1) Decoupled spatiotemporal factorization that separates temporal dynamics modeling from fine-grained future world generation, and 2) Modular trajectory and video prediction that seamlessly integrate motion planning with visual modeling in an end-to-end framework. Our architecture enables high-resolution, long-duration generation while introducing a novel chain-of-forward training strategy to address error accumulation in autoregressive loops. Experimental results demonstrate state-of-the-art performance with 7.4\% FVD improvement and minutes longer prediction duration compared to prior works. The learned world model further serves as a real-time motion planner, outperforming strong end-to-end planners on NAVSIM benchmarks. Code will be publicly available at \href{https://github.com/Kevin-thu/Epona/}{https://github.com/Kevin-thu/Epona/}.
- Abstract(参考訳): 拡散モデルは、ビデオ生成において例外的な視覚的品質を示しており、自律運転の世界モデリングに有望である。
しかし、既存のビデオ拡散に基づく世界モデルは、柔軟な長軸予測と軌道計画の統合に苦慮している。
これは、従来のビデオ拡散モデルは、各タイミングで局所分布を逐次構築するのではなく、固定長フレーム列のグローバルな共同分布モデルに依存しているためである。
本研究では,2つの重要な革新を通じて時空間分布の局所的モデリングを可能にする自己回帰拡散世界モデルであるEponaを提案する。
1) 時間力学モデリングを微粒な未来世代から切り離した時空間分解
2) 動作計画と視覚的モデリングをシームレスに統合するモジュール軌道と映像予測をエンドツーエンドのフレームワークで行う。
我々のアーキテクチャは、自己回帰ループにおけるエラーの蓄積に対処する新しいチェーン・オブ・フォワードトレーニング戦略を導入しながら、高分解能で長期にわたる生成を可能にする。
実験の結果,7.4\%のFVD改善と,従来よりも数分の予測期間を有する最先端性能が示された。
学習された世界モデルは、NAVSIMベンチマークで強力なエンドツーエンドプランナーよりも優れたリアルタイムモーションプランナーとして機能する。
コードは \href{https://github.com/Kevin-thu/Epona/}{https://github.com/Kevin-thu/Epona/} で公開される。
関連論文リスト
- EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Autoregressive Video Generation without Vector Quantization [90.87907377618747]
本研究では,時間フレーム毎の予測の非量子化自己回帰モデルとしてビデオ生成問題を再構成する。
提案手法では,ベクトル量子化のない新しい自己回帰モデルであるNOVAを訓練する。
以上の結果から,NOVAはデータ効率,推論速度,視覚的忠実度,映像流速において,従来の自己回帰ビデオモデルよりもはるかに小さいモデルキャパシティを有することがわかった。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - D$^2$-World: An Efficient World Model through Decoupled Dynamic Flow [47.361822281431586]
CVPR-2024 Workshop on Foundation Models for Autonomous Systems(CVPR-2024)で開催される予測的世界モデルチャレンジの2番目のソリューションを要約する。
D$2$-Worldは、Decoupled Dynamic Flowを通して将来の点雲を効果的に予測する新しい世界モデルである。
提案手法は,OpenScene Predictive World Modelベンチマークの最先端性能を実現し,第2位を確保し,ベースラインモデルよりも300%以上高速なトレーニングを行う。
論文 参考訳(メタデータ) (2024-11-26T01:42:49Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。