論文の概要: DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.19381v3
- Date: Mon, 02 Jun 2025 11:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.982754
- Title: DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving
- Title(参考訳): DiffVLA:自動運転のためのビジョンランゲージ誘導拡散計画
- Authors: Anqing Jiang, Yu Gao, Zhigang Sun, Yiru Wang, Jijun Wang, Jinghao Chai, Qian Cao, Yuweng Heng, Hao Jiang, Zongzheng Zhang, Xianda Guo, Hao Sun, Hao Zhao,
- Abstract要約: VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
- 参考スコア(独自算出の注目度): 15.776506097490252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research interest in end-to-end autonomous driving has surged owing to its fully differentiable design integrating modular tasks, i.e. perception, prediction and planing, which enables optimization in pursuit of the ultimate goal. Despite the great potential of the end-to-end paradigm, existing methods suffer from several aspects including expensive BEV (bird's eye view) computation, action diversity, and sub-optimal decision in complex real-world scenarios. To address these challenges, we propose a novel hybrid sparse-dense diffusion policy, empowered by a Vision-Language Model (VLM), called Diff-VLA. We explore the sparse diffusion representation for efficient multi-modal driving behavior. Moreover, we rethink the effectiveness of VLM driving decision and improve the trajectory generation guidance through deep interaction across agent, map instances and VLM output. Our method shows superior performance in Autonomous Grand Challenge 2025 which contains challenging real and reactive synthetic scenarios. Our methods achieves 45.0 PDMS.
- Abstract(参考訳): エンド・ツー・エンドの自動運転に対する研究の関心は、モジュラータスク(知覚、予測、計画など)を統合することで、最終的な目標を追求するための最適化を可能にする、完全に微分可能な設計のため、急増している。
エンド・ツー・エンドのパラダイムの大きな可能性にもかかわらず、既存の手法は、高価なBEV(バードアイビュー)計算、アクションの多様性、複雑な現実のシナリオにおける準最適決定など、いくつかの側面に悩まされている。
これらの課題に対処するため、我々はDiff-VLAと呼ばれるビジョン・ランゲージ・モデル(VLM)によって強化された新しいハイブリッド・スパース・デンス拡散政策を提案する。
効率的なマルチモーダル駆動動作のためのスパース拡散表現について検討する。
さらに, VLM駆動決定の有効性を再考し, エージェント, マップインスタンス, VLM出力間のディープインタラクションによる軌道生成指導を改善する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
提案手法は45.0PDMSを実現する。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving [17.939192289319056]
本稿では,条件付き画像生成タスクとして自律運転を再定義する拡散確率モデルであるDiffADを紹介する。
不均一な目標を統一された鳥眼ビュー(BEV)に固定し、その潜伏分布をモデル化することにより、DiffADは様々な駆動目標を統一する。
逆プロセスは生成したBEV画像を反復的に洗練し、より堅牢で現実的な運転行動をもたらす。
論文 参考訳(メタデータ) (2025-03-15T15:23:35Z) - Diffusion-Based Planning for Autonomous Driving with Flexible Guidance [19.204115959760788]
閉ループ計画のための新しい変圧器ベース拡散プランナを提案する。
本モデルは,予測タスクと計画タスクの協調モデリングを支援する。
様々な運転スタイルで頑健な伝達性を持つ最先端の閉ループ性能を実現する。
論文 参考訳(メタデータ) (2025-01-26T15:49:50Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Parameterized Decision-making with Multi-modal Perception for Autonomous
Driving [12.21578713219778]
AUTOと呼ばれる深層強化学習に基づくマルチモーダル認識を用いたパラメータ化意思決定フレームワークを提案する。
ハイブリッド報酬関数は、安全、交通効率、乗客の快適性、および最適な行動を生成するためのフレームワークを導く影響を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-19T08:27:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。