論文の概要: DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.15139v1
- Date: Fri, 22 Nov 2024 18:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 18:36:18.382240
- Title: DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
- Title(参考訳): DiffusionDrive: エンド・ツー・エンドの自動運転のための切り換え拡散モデル
- Authors: Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang,
- Abstract要約: 拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
- 参考スコア(独自算出の注目度): 38.867860153968394
- License:
- Abstract: Recently, the diffusion model has emerged as a powerful generative technique for robotic policy learning, capable of modeling multi-mode action distributions. Leveraging its capability for end-to-end autonomous driving is a promising direction. However, the numerous denoising steps in the robotic diffusion policy and the more dynamic, open-world nature of traffic scenes pose substantial challenges for generating diverse driving actions at a real-time speed. To address these challenges, we propose a novel truncated diffusion policy that incorporates prior multi-mode anchors and truncates the diffusion schedule, enabling the model to learn denoising from anchored Gaussian distribution to the multi-mode driving action distribution. Additionally, we design an efficient cascade diffusion decoder for enhanced interaction with conditional scene context. The proposed model, DiffusionDrive, demonstrates 10$\times$ reduction in denoising steps compared to vanilla diffusion policy, delivering superior diversity and quality in just 2 steps. On the planning-oriented NAVSIM dataset, with the aligned ResNet-34 backbone, DiffusionDrive achieves 88.1 PDMS without bells and whistles, setting a new record, while running at a real-time speed of 45 FPS on an NVIDIA 4090. Qualitative results on challenging scenarios further confirm that DiffusionDrive can robustly generate diverse plausible driving actions. Code and model will be available at https://github.com/hustvl/DiffusionDrive.
- Abstract(参考訳): 近年,多モード動作分布をモデル化可能なロボット政策学習の強力な生成手法として拡散モデルが登場している。
エンドツーエンドの自動運転能力を活用することは、有望な方向だ。
しかし、ロボット拡散政策における多くのデノベーションステップと、よりダイナミックでオープンワールドな交通シーンの性質は、様々な運転動作をリアルタイムで生成する上で大きな課題を生んでいる。
これらの課題に対処するために,従来のマルチモードアンカーを組み込んで拡散スケジュールを切り離し,アンカー付きガウス分布からマルチモード駆動動作分布へのデノナイジング学習を可能にする,新しい切り離された拡散ポリシーを提案する。
さらに,条件付きシーンコンテキストとの相互作用を増強する効率的なカスケード拡散デコーダを設計する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル以上のデノナイジングステップを削減し、わずか2ステップで優れた多様性と品質を提供する。
計画指向のNAVSIMデータセットでは、アライメントされたResNet-34バックボーンにより、DiffusionDriveは、ベルとホイッスルなしで88.1PDMSを獲得し、NVIDIA 4090上で45 FPSのリアルタイム速度で実行しながら、新しい記録を樹立した。
挑戦的なシナリオに関する質的な結果はさらに、DiffusionDriveが多種多様な妥当な運転動作を確実に生成できることを確認している。
コードとモデルはhttps://github.com/hustvl/DiffusionDrive.comで入手できる。
関連論文リスト
- Latent Weight Diffusion: Generating Policies from Trajectories [13.404962654299041]
遅延重み拡散(英語: Latent Weight Diffusion、LWD)は、拡散を利用して、軌道よりもむしろロボットタスクのポリシーに関する分布を学習する手法である。
LWDは、バニラマルチタスクポリシーよりも高い成功率を達成する一方で、推論時に最大18倍のモデルを使用する。
論文 参考訳(メタデータ) (2024-10-17T21:30:29Z) - Intention-aware Denoising Diffusion Model for Trajectory Prediction [14.524496560759555]
軌道予測は、特に衝突回避システムにおいて、自律運転において不可欠な要素である。
本稿では,拡散モデルを用いて将来の軌道の分布を生成することを提案する。
Intention-aware denoising Diffusion Model (IDM)を提案する。
提案手法は,SDDデータセットでは13.83ピクセル,ETH/UCYデータセットでは0.36メートルのFDEで,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-03-14T09:05:25Z) - Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。
そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。
DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-09T17:18:33Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - GDTS: Goal-Guided Diffusion Model with Tree Sampling for Multi-Modal Pedestrian Trajectory Prediction [15.731398013255179]
マルチモーダル軌道予測のための木サンプリングを用いたゴールガイド拡散モデルを提案する。
2段階のツリーサンプリングアルゴリズムが提案され、一般的な特徴を活用して推論時間を短縮し、マルチモーダル予測の精度を向上させる。
実験により,提案フレームワークは,公開データセットにおけるリアルタイム推論速度と同等の最先端性能を達成できることが実証された。
論文 参考訳(メタデータ) (2023-11-25T03:55:06Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial
Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。
我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。
提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-02-19T20:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。