論文の概要: Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latent Space
- arxiv url: http://arxiv.org/abs/2503.09215v2
- Date: Mon, 17 Mar 2025 08:07:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:47.330308
- Title: Other Vehicle Trajectories Are Also Needed: A Driving World Model Unifies Ego-Other Vehicle Trajectories in Video Latent Space
- Title(参考訳): 自動運転車の軌道も必要:Ego- other vehicle Trajectoriesをビデオ・ラテント・スペースで統一する世界モデル
- Authors: Jian Zhu, Zhengyu Jia, Tian Gao, Jiaxin Deng, Shidi Li, Fu Liu, Peng Jia, Xianpeng Lang, Xiaolong Sun,
- Abstract要約: 本稿では,EOT-WMという駆動型世界モデルを提案する。
モデルは、自作の軌跡で見えない運転シーンを予測することもできる。
- 参考スコア(独自算出の注目度): 17.782501276072537
- License:
- Abstract: Advanced end-to-end autonomous driving systems predict other vehicles' motions and plan ego vehicle's trajectory. The world model that can foresee the outcome of the trajectory has been used to evaluate the end-to-end autonomous driving system. However, existing world models predominantly emphasize the trajectory of the ego vehicle and leave other vehicles uncontrollable. This limitation hinders their ability to realistically simulate the interaction between the ego vehicle and the driving scenario. In addition, it remains a challenge to match multiple trajectories with each vehicle in the video to control the video generation. To address above issues, a driving World Model named EOT-WM is proposed in this paper, unifying Ego-Other vehicle Trajectories in videos. Specifically, we first project ego and other vehicle trajectories in the BEV space into the image coordinate to match each trajectory with its corresponding vehicle in the video. Then, trajectory videos are encoded by the Spatial-Temporal Variational Auto Encoder to align with driving video latents spatially and temporally in the unified visual space. A trajectory-injected diffusion Transformer is further designed to denoise the noisy video latents for video generation with the guidance of ego-other vehicle trajectories. In addition, we propose a metric based on control latent similarity to evaluate the controllability of trajectories. Extensive experiments are conducted on the nuScenes dataset, and the proposed model outperforms the state-of-the-art method by 30% in FID and 55% in FVD. The model can also predict unseen driving scenes with self-produced trajectories.
- Abstract(参考訳): 高度なエンドツーエンドの自動運転システムは、他の車両の動きを予測し、エゴ車の軌道を計画する。
軌道の結果を予測できる世界モデルは、エンドツーエンドの自動運転システムを評価するために使われてきた。
しかし、既存の世界モデルは、主にエゴ車の軌道を強調し、他の車両を制御不能にしている。
この制限は、エゴ車と運転シナリオの間の相互作用を現実的にシミュレートする能力を妨げます。
さらに、ビデオ生成を制御するために、ビデオ内の各車両と複数の軌跡を一致させることは依然として課題である。
上記の問題に対処するため、EOT-WMという運転用ワールドモデルを提案し、Ego-Other車両軌道をビデオに統一する。
具体的には,まず,BEV空間内のエゴおよび他の車両軌跡を画像座標に投影し,各軌跡と対応する車両とのマッチングを行う。
次に、軌跡映像を時空間変オートエンコーダで符号化し、統一された視覚空間において、映像潜伏者の空間的・時間的に一致させる。
トラジェクトリ注入拡散変換器は、エゴ異種車両軌道の誘導により、ビデオ生成のためのノイズの多いビデオ潜像をノイズ化するように設計されている。
さらに,トラジェクトリの制御性を評価するために,制御遅延類似度に基づくメトリクスを提案する。
nuScenesデータセットで大規模な実験を行い、提案したモデルは、FIDの30%、FVDの55%で最先端の手法より優れている。
モデルは、自作の軌跡で見えない運転シーンを予測することもできる。
関連論文リスト
- Transfer Your Perspective: Controllable 3D Generation from Any Viewpoint in a Driving Scene [56.73568220959019]
共同自動運転(CAV)は有望な方向のようだが、開発のためのデータ収集は簡単ではない。
本研究では,運転シーンにおける異なる視点から現実的な知覚を生み出すことを目的とした,救助支援のための新しいサロゲートを提案する。
シミュレーションされたコラボレーティブデータと実車データを組み合わせた,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2025-02-10T17:07:53Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - HE-Drive: Human-Like End-to-End Driving with Vision Language Models [11.845309076856365]
HE-Driveは,人類初のエンドツーエンド自動運転システムである。
HE-Driveは、データセット上での最先端性能(すなわち、平均衝突速度をVADより71%削減)と効率(SparseDriveより1.9倍高速)を達成することを示す。
論文 参考訳(メタデータ) (2024-10-07T14:06:16Z) - WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [14.236973526112674]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。
提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。
提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-02T16:28:41Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle
Segmentation and Ego Vehicle Trajectory Prediction [4.328789276903559]
軌道予測は自動車の自律性にとって重要な課題である。
学習に基づく軌道予測への関心が高まっている。
認識能力を向上させる可能性があることが示される。
論文 参考訳(メタデータ) (2023-12-20T15:02:37Z) - Driving into the Future: Multiview Visual Forecasting and Planning with
World Model for Autonomous Driving [56.381918362410175]
Drive-WMは、既存のエンド・ツー・エンドの計画モデルと互換性のある世界初のドライビングワールドモデルである。
ドライビングシーンで高忠実度マルチビュー映像を生成する。
論文 参考訳(メタデータ) (2023-11-29T18:59:47Z) - An End-to-End Vehicle Trajcetory Prediction Framework [3.7311680121118345]
将来の軌道の正確な予測は、以前の軌道に依存するだけでなく、近くの他の車両間の複雑な相互作用のシミュレーションにも依存する。
この問題に対処するために構築されたほとんどの最先端のネットワークは、軌跡をたどって容易に利用できると仮定している。
本稿では,生のビデオ入力を取り込み,将来の軌跡予測を出力する新しいエンドツーエンドアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-19T15:42:03Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。