論文の概要: LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.02035v1
- Date: Mon, 02 Mar 2026 16:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.967578
- Title: LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers
- Title(参考訳): LAD-Drive:アクション対応拡散変換器によるブリッジ言語と軌道
- Authors: Fabian Schmidt, Karol Fedurko, Markus Enzweiler, Abhinav Valada,
- Abstract要約: 低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
- 参考スコア(独自算出の注目度): 15.4994260281059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multimodal large language models (MLLMs) provide advanced reasoning for autonomous driving, translating their discrete semantic knowledge into continuous trajectories remains a fundamental challenge. Existing methods often rely on unimodal planning heads that inherently limit their ability to represent multimodal driving behavior. Furthermore, most generative approaches frequently condition on one-hot encoded actions, discarding the nuanced navigational uncertainty critical for complex scenarios. To resolve these limitations, we introduce LAD-Drive, a generative framework that structurally disentangles high-level intention from low-level spatial planning. LAD-Drive employs an action decoder to infer a probabilistic meta-action distribution, establishing an explicit belief state that preserves the nuanced intent typically lost by one-hot encodings. This distribution, fused with the vehicle's kinematic state, conditions an action-aware diffusion decoder that utilizes a truncated denoising process to refine learned motion anchors into safe, kinematically feasible trajectories. Extensive evaluations on the LangAuto benchmark demonstrate that LAD-Drive achieves state-of-the-art results, outperforming competitive baselines by up to 59% in Driving Score while significantly reducing route deviations and collisions. We will publicly release the code and models on https://github.com/iis-esslingen/lad-drive.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、自律運転のための高度な推論を提供するが、個々の意味的知識を連続的な軌跡に変換することは根本的な課題である。
既存の手法は、本質的にはマルチモーダル運転行動を表現する能力を制限する、一様計画ヘッドに依存していることが多い。
さらに、ほとんどの生成的アプローチは、複雑なシナリオにとって重要なニュアンスドナビゲーションの不確実性を捨て、ワンホットエンコードされたアクションに頻繁に条件付けする。
これらの制約を解決するために,低レベルの空間計画から高レベルの意図を構造的に切り離す生成フレームワークであるLAD-Driveを導入する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスされた意図を保存する明示的な信念状態を確立する。
この分布は、車両の運動状態と融合し、学習された運動アンカーを安全かつキネマティックに実現可能な軌道に洗練するために、切り離されたデノナイジングプロセスを利用するアクション対応拡散デコーダを条件にしている。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回り、ルート偏差や衝突を著しく低減していることを示している。
コードとモデルはhttps://github.com/iis-esslingen/lad-drive.comで公開します。
関連論文リスト
- Unifying Language-Action Understanding and Generation for Autonomous Driving [25.23561391638388]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。
既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。
LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
論文 参考訳(メタデータ) (2026-03-02T04:41:10Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存している
オンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。
大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。
軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文 参考訳(メタデータ) (2025-12-15T18:31:32Z) - AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving [71.55254573283793]
既存のアプローチでは、Large Language Modelsを頻繁に起動し、過剰な計算オーバーヘッドを引き起こすか、固定スケジュールを使用するかのいずれかである。
我々は,LLMが意思決定にいつ,どのように貢献するかを最適に決定する,適応的に協調的なスローファストフレームワークであるAdaDriveを提案する。
AdaDriveは、リアルタイムのパフォーマンスを損なうことなく、意思決定の精度を最大化するフレキシブルでコンテキスト対応のフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-09T07:05:03Z) - BridgeDrive: Diffusion Bridge Policy for Closed-Loop Trajectory Planning in Autonomous Driving [29.832781649644414]
BridgeDriveは、閉ループ軌道計画のための新しいアンカー誘導拡散ブリッジポリシーである。
我々はBench2Driveベンチマークで最先端のパフォーマンスを達成し、先行技術よりも成功率を5%向上させた。
論文 参考訳(メタデータ) (2025-09-28T02:47:12Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving [64.12414815634847]
ビジョン・ランゲージ・モデル(VLM)とドライビング・ワールド・モデル(DWM)は、この課題のさまざまな側面に対処する強力なレシピとして独立して登場した。
我々は、VLMベースの運転エージェントとDWMベースのシーン想像装置を統合した、新しいエンドツーエンドの自動運転フレームワークであるImagiDriveを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:06:55Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving [38.867860153968394]
拡散モデルは、ロボット政策学習の強力な生成技術として登場した。
本稿では,従来のマルチモードアンカーを取り入れ,拡散スケジュールを切り離す,新たな切り離された拡散ポリシーを提案する。
提案したモデルであるDiffusionDriveは、バニラ拡散ポリシーと比較して10ドル程度のデノナイジングステップの削減を実証している。
論文 参考訳(メタデータ) (2024-11-22T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。