論文の概要: Multimodal Action Diffusion for Robust End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.02105v1
- Date: Mon, 01 Jun 2026 11:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.890328
- Title: Multimodal Action Diffusion for Robust End-to-End Autonomous Driving
- Title(参考訳): ロバストエンド・ツー・エンド自動運転のためのマルチモーダル動作拡散
- Authors: Jorge Daniel Rodríguez-Vidal, Diego Porres, Gabriel Villalonga Pineda, Antonio M. López Peña,
- Abstract要約: Action Diffusion Transformer (ADT) は、MSE目標で訓練されたアンカーフリーな拡散変圧器である。
1つの決定論的コマンドにコミットするのではなく、ADTはKアクション候補を生成し、推論時に最も適したコマンドを選択する。
ADTは、挑戦的なクローズループベンチマークであるBench2Driveの10倍のレイテンシを実現しながら、これまでの最先端を越えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-End Autonomous Driving (E2E-AD) systems have largely converged on predicting intermediate trajectory waypoints, delegating final control to hand-crafted controllers with GPS access. Direct control-signal prediction (outputting throttle, steer and brake in an end-to-end fashion) remains underexplored, and critically, the role of action multimodality in such systems is not well understood. We argue that moving beyond deterministic, single-action outputs is not merely a modelling choice, but a key driver of driving performance, representational quality, and training stability. To validate this, we introduce the Action Diffusion Transformer (ADT), an anchor-free diffusion transformer trained with a MSE objective that natively models the multimodal distribution of plausible driving actions. Rather than committing to a single deterministic command, ADT generates K action candidates and selects the most suitable one at inference via Nearest Neighbour Matching (NNM). Beyond strong benchmark numbers, we show that action multimodality yields measurable benefits in learned representations and behavioral consistency, effects that deterministic architectures cannot replicate. ADT surpasses previous state-of-the-art on the challenging closed-loop Bench2Drive benchmark while achieving ten times lower latency, demonstrating that expressive, multimodal action modelling is both practically efficient and conceptually essential for robust end-to-end driving.
- Abstract(参考訳): E2E-AD(End-to-End Autonomous Driving)システムは、中間軌跡を予測し、最終的な制御をGPSアクセスで手作りのコントローラに委譲することに集中している。
直接制御信号予測(スロットル、ステア、ブレーキをエンド・ツー・エンドで出力する)は未発見のままであり、重要なことに、そのようなシステムにおけるアクションマルチモーダルの役割はよく理解されていない。
決定論的かつ単一アクションのアウトプットを超えて動くことは単なるモデリングの選択ではなく、パフォーマンス、表現品質、トレーニング安定性を駆動する重要な要因である、と私たちは主張する。
これを検証するために、我々はMSE目標を用いて訓練されたアンカーフリー拡散変圧器であるAction Diffusion Transformer (ADT)を導入し、プラプシブル駆動動作のマルチモーダル分布をネイティブにモデル化した。
1つの決定論的コマンドにコミットするのではなく、ADTはKアクション候補を生成し、Nearest Neighbour Matching (NNM)を介して推論時に最も適切なコマンドを選択する。
強いベンチマーク数を超えると、行動多様性は学習された表現と行動整合性において測定可能な利益をもたらすことが示され、決定論的アーキテクチャが複製できない効果が示される。
ADTは、挑戦的なクローズループであるBench2Driveベンチマークの最先端を10倍のレイテンシで越え、表現力のあるマルチモーダルアクションモデリングが実用的に効率的かつ概念的に堅牢なエンド・ツー・エンド・ドライブに不可欠であることを実証している。
関連論文リスト
- MAPLE: Latent Multi-Agent Play for End-to-End Autonomous Driving [62.43744546817599]
視覚言語-アクション(VLA)モデルは、エンドツーエンドのモーションプランナーとして有効であるが、クローズドループ設定で評価すると不安定である。
本稿では, VLAモデルの潜在空間における動的駆動シナリオの, リアクティブでマルチエージェントなロールアウトのための新しいフレームワークMAPLEを提案する。
MAPLEはBench2Driveで最先端の駆動性能を実現し、堅牢なE2E自動運転システムのためのスケーラブルでクローズループなマルチエージェントプレイを実演する。
論文 参考訳(メタデータ) (2026-05-13T23:35:14Z) - BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving [29.832781649644414]
BridgeDriveは、閉ループ軌道計画のための新しいアンカー誘導拡散ブリッジポリシーである。
我々はBench2Driveベンチマークで最先端のパフォーマンスを達成し、先行技術よりも成功率を5%向上させた。
論文 参考訳(メタデータ) (2025-09-28T02:47:12Z) - Markov Regime-Switching Intelligent Driver Model for Interpretable Car-Following Behavior [19.229274803939983]
我々は、運転動作を異なるIDMパラメータセットで制御できるレギュラースイッチングフレームワークを導入する。
IDM力学を用いたファクショナル隠れマルコフモデルを用いてフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2025-06-17T17:55:42Z) - X-Driver: Explainable Autonomous Driving with Vision-Language Models [6.053632514335829]
エンドツーエンドの自動運転は大幅に進歩し、システムの単純さや運転性能の向上といったメリットを提供している。
既存のフレームワークはまだクローズドループ評価の成功率の低下に悩まされており、実際のデプロイメントにおける制限を強調している。
我々は,クローズドループ自律運転用に設計された,マルチモーダルな大規模言語モデルフレームワークであるX-Driverを紹介する。
論文 参考訳(メタデータ) (2025-05-08T09:52:55Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Multi-task UNet architecture for end-to-end autonomous driving [0.0]
本稿では,MTUNetアーキテクチャと制御アルゴリズムを統合したエンドツーエンド駆動モデルを提案する。
エンド・ツー・エンド駆動システムの総合的、動的、リアルタイムな性能を評価するための定量的尺度を提供し、MTUNetの安全性と解釈性を提供する。
論文 参考訳(メタデータ) (2021-12-16T15:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。