論文の概要: Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.20109v1
- Date: Wed, 24 Sep 2025 13:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.827896
- Title: Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
- Title(参考訳): 自律走行における反射型視覚・言語・行動モデルのための離散拡散
- Authors: Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang,
- Abstract要約: 離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
- 参考スコア(独自算出の注目度): 55.13109926181247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on complex rule-based post-refinement, employ reinforcement learning that remains largely limited to simulation, or utilize diffusion guidance that requires computationally expensive gradient calculations. To address these challenges, we introduce ReflectDrive, a novel learning-based framework that integrates a reflection mechanism for safe trajectory generation via discrete diffusion. We first discretize the two-dimensional driving space to construct an action codebook, enabling the use of pre-trained Diffusion Language Models for planning tasks through fine-tuning. Central to our approach is a safety-aware reflection mechanism that performs iterative self-correction without gradient computation. Our method begins with goal-conditioned trajectory generation to model multi-modal driving behaviors. Based on this, we apply local search methods to identify unsafe tokens and determine feasible solutions, which then serve as safe anchors for inpainting-based regeneration. Evaluated on the NAVSIM benchmark, ReflectDrive demonstrates significant advantages in safety-critical trajectory generation, offering a scalable and reliable solution for autonomous driving systems.
- Abstract(参考訳): エンド・ツー・エンド(E2E)ソリューションは、ビジョン・ランゲージ・アクション(VLA)モデルによって、ビジョン・ランゲージ・モデル(VLM)からトレーニング済みのマルチモーダル知識を活用して、複雑な現実世界環境を解釈し、相互作用する新しいパラダイムとして、自律運転システムの主流のアプローチとして登場した。
しかし、これらの手法は、訓練中の物理的な規則を本質的にエンコードするのに苦労する模倣学習の限界に制約されているままである。
既存のアプローチは、しばしば複雑なルールベースのポストリファインメントに依存し、シミュレーションに限られる強化学習を採用するか、計算に高価な勾配計算を必要とする拡散誘導を利用する。
これらの課題に対処するために,離散拡散による安全な軌道生成のためのリフレクション機構を統合した,新しい学習ベースのフレームワークであるReflectDriveを紹介する。
まず,2次元駆動空間を識別して動作コードブックを構築することで,微調整によるタスク計画に事前学習拡散言語モデルを適用する。
我々のアプローチの中心は、勾配計算なしで反復的な自己補正を行う安全対応反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
そこで本稿では, 安全でないトークンを識別し, 有効解を決定するために局所探索手法を適用し, 塗布による再生のための安全なアンカーとして機能する。
NAVSIMベンチマークで評価すると、リフレクションドライブは安全クリティカルな軌道生成において大きな利点を示し、自律運転システムに対してスケーラブルで信頼性の高いソリューションを提供する。
関連論文リスト
- AutoDrive-R$^2$: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving [37.260140808367716]
本稿では,自律運転システムの推論能力と自己回帰能力を両立させる新しいVLAフレームワークであるAutoDrive-R$2$を提案する。
まず,教師付き微調整のための新しいCoTデータセット nuScenesR$2$-6K を提案する。
次に, グループ相対政策最適化(GRPO)アルゴリズムを用いて, 信頼性の高い滑らかさと現実的な軌道計画を実現する。
論文 参考訳(メタデータ) (2025-09-02T04:32:24Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - Breaking Imitation Bottlenecks: Reinforced Diffusion Powers Diverse Trajectory Generation [20.106116218594266]
DIVERは、強化学習と拡散ベースの生成を統合するエンドツーエンドの自動運転フレームワークである。
また,DIVERは軌道の多様性を著しく改善し,模倣学習に固有のモード崩壊問題に効果的に対処することを示した。
論文 参考訳(メタデータ) (2025-07-05T14:19:19Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [35.493857028919685]
本研究では,視覚言語モデルと拡散プランナを統合した自律運転システムReCogDriveを提案する。
本稿では,大規模運転質問応答データセットを用いてVLMの訓練を行い,汎用コンテンツと実世界の運転シナリオとのドメイン差を緩和する。
第2段階では、拡散型プランナーを用いて模倣学習を行い、潜在言語空間から連続運転行動への表現をマッピングする。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Learning Soft Driving Constraints from Vectorized Scene Embeddings while Imitating Expert Trajectories [16.666811573117613]
運動計画の第一の目的は、車両の安全で効率的な軌道を生成することである。
伝統的に、運動計画モデルは、人間の専門家の行動を模倣するために模倣学習を用いて訓練される。
本研究では,制約学習を模倣学習に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T18:29:28Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。