論文の概要: ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos
- arxiv url: http://arxiv.org/abs/2505.18650v1
- Date: Sat, 24 May 2025 11:35:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.566982
- Title: ProphetDWM: A Driving World Model for Rolling Out Future Actions and Videos
- Title(参考訳): ProphetDWM:未来のアクションとビデオのロールアウトのための世界モデル
- Authors: Xiaodong Wang, Peixi Peng,
- Abstract要約: 我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。
ProphetDWMは、未来のビデオやアクションを共同で予測する新しいエンド・ツー・エンドの運転世界モデルである。
- 参考スコア(独自算出の注目度): 13.630119246378518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world driving requires people to observe the current environment, anticipate the future, and make appropriate driving decisions. This requirement is aligned well with the capabilities of world models, which understand the environment and predict the future. However, recent world models in autonomous driving are built explicitly, where they could predict the future by controllable driving video generation. We argue that driving world models should have two additional abilities: action control and action prediction. Following this line, previous methods are limited because they predict the video requires given actions of the same length as the video and ignore the dynamical action laws. To address these issues, we propose ProphetDWM, a novel end-to-end driving world model that jointly predicts future videos and actions. Our world model has an action module to learn latent action from the present to the future period by giving the action sequence and observations. And a diffusion-model-based transition module to learn the state distribution. The model is jointly trained by learning latent actions given finite states and predicting action and video. The joint learning connects the action dynamics and states and enables long-term future prediction. We evaluate our method in video generation and action prediction tasks on the Nuscenes dataset. Compared to the state-of-the-art methods, our method achieves the best video consistency and best action prediction accuracy, while also enabling high-quality long-term video and action generation.
- Abstract(参考訳): 現実の運転には、現在の環境を観察し、未来を予測し、適切な運転判断をする必要がある。
この要件は、環境を理解し未来を予測する世界モデルの能力とよく一致している。
しかし、近年の自動運転車の世界モデルは明確に構築されており、制御可能な運転ビデオ生成によって未来を予測することができる。
我々は、世界モデルを駆動するには、アクションコントロールとアクション予測の2つの追加能力が必要であると論じる。
この行に続いて、ビデオの予測にはビデオと同じ長さのアクションが必要であり、ダイナミックなアクション法則を無視するため、従来の手法は制限されている。
これらの課題に対処するために,将来的なビデオやアクションを共同で予測する新しいエンド・ツー・エンド・エンド・ドライブ・ワールド・モデルであるProphetDWMを提案する。
我々の世界モデルは、アクションシーケンスと観察を行うことで、現在から未来までの潜在アクションを学習するためのアクションモジュールを持っている。
そして、状態分布を学習するための拡散モデルベースの遷移モジュール。
このモデルは有限状態の潜在動作を学習し、アクションとビデオを予測することによって共同で訓練される。
共同学習は行動力学と状態を結合し、長期的な予測を可能にする。
我々は,Nuscenesデータセット上での映像生成および行動予測タスクにおいて,本手法を評価する。
提案手法は最先端の手法と比較して,映像の一貫性とアクション予測の精度を向上するとともに,高品質な映像・アクション生成を可能にする。
関連論文リスト
- Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - DrivingWorld: Constructing World Model for Autonomous Driving via Video GPT [33.943125216555316]
我々は、自動運転のためのGPTスタイルの世界モデルであるDrivingWorldを紹介する。
本稿では,連続フレーム間の時間的コヒーレンスをモデル化する次世代予測手法を提案する。
また,長期ドリフト問題を軽減するため,トークン予測のための新しいマスキング戦略と再重み付け戦略を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:44:07Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - Driving in the Occupancy World: Vision-Centric 4D Occupancy Forecasting and Planning via World Models for Autonomous Driving [15.100104512786107]
Drive-OccWorldは、自動運転のエンドツーエンド計画にビジョン中心の4D予測ワールドモデルを適用する。
制御可能な生成を可能にするために,速度,操舵角度,軌道,指令などの柔軟な動作条件を世界モデルに注入することを提案する。
本手法は,多目的かつ制御可能な4D占有率を創出し,次世代の運転とエンド・ツー・エンド・プランニングの進歩への道を開く。
論文 参考訳(メタデータ) (2024-08-26T11:53:09Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。