論文の概要: InfinityDrive: Breaking Time Limits in Driving World Models
- arxiv url: http://arxiv.org/abs/2412.01522v1
- Date: Mon, 02 Dec 2024 14:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:04.253188
- Title: InfinityDrive: Breaking Time Limits in Driving World Models
- Title(参考訳): InfinityDrive:世界モデルの運転時間制限を破る
- Authors: Xi Guo, Chenjing Ding, Haoxuan Dou, Xin Zhang, Weixuan Tang, Wei Wu,
- Abstract要約: InfinityDriveは、例外的な一般化機能を備えた最初の駆動世界モデルである。
最先端のパフォーマンスを高忠実さ、一貫性、多様性で実現し、微細なビデオ生成を実現している。
複数のデータセットにおける我々の実験は、InfinityDriveが複雑で多様なシナリオを生成する能力を検証する。
- 参考スコア(独自算出の注目度): 12.041484892881057
- License:
- Abstract: Autonomous driving systems struggle with complex scenarios due to limited access to diverse, extensive, and out-of-distribution driving data which are critical for safe navigation. World models offer a promising solution to this challenge; however, current driving world models are constrained by short time windows and limited scenario diversity. To bridge this gap, we introduce InfinityDrive, the first driving world model with exceptional generalization capabilities, delivering state-of-the-art performance in high fidelity, consistency, and diversity with minute-scale video generation. InfinityDrive introduces an efficient spatio-temporal co-modeling module paired with an extended temporal training strategy, enabling high-resolution (576$\times$1024) video generation with consistent spatial and temporal coherence. By incorporating memory injection and retention mechanisms alongside an adaptive memory curve loss to minimize cumulative errors, achieving consistent video generation lasting over 1500 frames (approximately 2 minutes). Comprehensive experiments in multiple datasets validate InfinityDrive's ability to generate complex and varied scenarios, highlighting its potential as a next-generation driving world model built for the evolving demands of autonomous driving. Our project homepage: https://metadrivescape.github.io/papers_project/InfinityDrive/page.html
- Abstract(参考訳): 自律運転システムは、安全なナビゲーションに不可欠な多種多様で広範囲で配布外運転データへのアクセスが限られているため、複雑なシナリオに苦慮する。
世界モデルは、この課題に対する有望な解決策を提供するが、現在の運転世界モデルは、短時間の窓と限られたシナリオの多様性によって制約されている。
このギャップを埋めるために、我々はInfinityDriveを紹介します。これは、例外的な一般化機能を備えた最初の駆動世界モデルであり、高忠実度、一貫性、多様性で最先端のパフォーマンスを提供する。
InfinityDriveは、時間的トレーニング戦略の拡張と組み合わせた効率的な時空間共モデリングモジュールを導入し、一貫した空間的コヒーレンスと時間的コヒーレンスを備えた高解像度(576$\times$1024)ビデオ生成を可能にする。
メモリインジェクションと保持機構をアダプティブメモリカーブ損失と組み合わせることで累積誤差を最小限に抑え、1500フレーム(約2分)を超える一貫したビデオ生成を実現する。
複数のデータセットにおける包括的な実験は、InfinityDriveが複雑で多様なシナリオを生成する能力を検証する。
プロジェクトのホームページ: https://metadrivescape.github.io/papers_project/InfinityDrive/page.html
関連論文リスト
- DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [38.867860153968394]
拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
論文 参考訳(メタデータ) (2024-11-22T18:59:47Z) - MagicDriveDiT: High-Resolution Long Video Generation for Autonomous Driving with Adaptive Control [68.74166535159311]
本稿では,Ditアーキテクチャに基づく新しいアプローチであるMagicDriveDiTを紹介する。
MagicDriveDiTは、空間的時間的条件エンコーディングを組み込むことで、空間的時間的潜伏量を正確に制御する。
実験では、高解像度でフレーム数の多いリアルなストリートシーンビデオを生成する上で、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-21T03:13:30Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Kick Back & Relax: Learning to Reconstruct the World by Watching SlowTV [68.31957280416347]
自己教師付き単分子深度推定(SS-MDE)は、膨大な量のデータにスケールする可能性がある。
我々は,既存の自動車用データセットよりも桁違いに多くのデータを含む,YouTubeから収集した大規模SlowTVデータセットを提案する。
SS-MDEモデルをトレーニングし、屋内/屋外の大量のデータセットにゼロショットの一般化を提供する。
論文 参考訳(メタデータ) (2023-07-20T09:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。