論文の概要: DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.20720v1
- Date: Tue, 25 Nov 2025 07:00:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.78762
- Title: DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving
- Title(参考訳): DeeAD:効率的な自律運転のためのビジョンランゲージ動作の動的早期実行
- Authors: Haibo HU, Lianming Huang, Nan Guan, Chun Jason Xue,
- Abstract要約: Vision-Language Action (VLA) は、認識、推論、軌道生成を自律運転に統一するが、深いトランスフォーマースタックによる大きな推論遅延に悩まされる。
トレーニング不要で行動誘導型早期退避型フレームワークであるDeeADについて,中間軌道の物理的実現可能性を評価することにより,VLA計画の高速化を図る。
Bench2Driveベンチマークの実験では、計画品質と安全性を保ちながら、28%のトランスフォーマー層幅と29%のレイテンシ削減が示されている。
- 参考スコア(独自算出の注目度): 20.235153433297384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Action (VLA) models unify perception, reasoning, and trajectory generation for autonomous driving, but suffer from significant inference latency due to deep transformer stacks. We present DeeAD, a training-free, action-guided early-exit framework that accelerates VLA planning by evaluating the physical feasibility of intermediate trajectories. Instead of relying on confidence scores, DeeAD terminates inference when predicted trajectories align with lightweight planning priors (e.g., Navigation or Low-precision Planning) within a tolerable deviation (<2m). To improve efficiency, we introduce a multi-hop controller that adaptively skips redundant layers based on the change rate of scores. DeeAD integrates into existing VLA models, such as ORION, without requiring retraining. Experiments on the Bench2Drive benchmark demonstrate up to 28% transformer-layer sparsity and 29% latency reduction, while preserving planning quality and safety.
- Abstract(参考訳): Vision-Language Action (VLA) は、認識、推論、軌道生成を自律運転に統一するが、深いトランスフォーマースタックによる大きな推論遅延に悩まされる。
トレーニング不要で行動誘導型早期退避型フレームワークであるDeeADについて,中間軌道の物理的実現可能性を評価することにより,VLA計画の高速化を図る。
信頼性スコアに頼る代わりに、DeeADは、予測された軌道が、許容可能な偏差 (2m) の中で、軽量な計画事前(例えば、ナビゲーションまたは低精度計画)と整合すると、推論を終了する。
効率を向上させるために、スコアの変化率に基づいて冗長層を適応的にスキップするマルチホップコントローラを導入する。
DeeADは、ORIONのような既存のVLAモデルに統合される。
Bench2Driveベンチマークの実験では、計画品質と安全性を保ちながら、28%のトランスフォーマー層幅と29%のレイテンシ削減が示されている。
関連論文リスト
- dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - DAP: A Discrete-token Autoregressive Planner for Autonomous Driving [34.32497598431514]
本稿では,BEVのセマンティクスとエゴの軌跡を共同で予測する離散的な自己回帰プランナであるDAPを紹介する。
我々は、報酬誘導改善を注入しながら、教師付き行動クローンを保存できる強化学習に基づく微調整を取り入れた。
DAPは、オープンループメトリクスの最先端のパフォーマンスを達成し、NAVSIMベンチマークで競合するクローズループ結果を提供する。
論文 参考訳(メタデータ) (2025-11-17T12:31:33Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance [12.513296074529727]
本稿では,自律走行のためのリアルタイムエッジベース自律走行軌道プランナ(REACT)を提案する。
REACTは、微調整軽量ビジョンランゲージモデル(VLM)に基づくADのためのV2X統合軌道最適化フレームワークである。
DeepAccidentベンチマークで評価されたREACTは、最先端の性能、77%の衝突率の低減、48.2%のビデオパノプティクス品質(VPQ)、およびJetson AGX Orinでの0.57秒の推論遅延を実現している。
論文 参考訳(メタデータ) (2025-08-01T20:16:04Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Variable Time-Step MPC for Agile Multi-Rotor UAV Interception of Dynamic Targets [6.0967385124149756]
既存の非線形モデル予測制御手法を使用したアジャイルプランニングは、ますます需要が高まるにつれて計画手順の数によって制限される。
本稿では,変動時間ステップを導入し,予測水平長と組み合わせることで,これらの制約に対処することを提案する。
簡易な点質量運動プリミティブは、四重項力学の微分平坦性と、平坦な出力空間における可能な軌道の軌道生成を利用するために用いられる。
論文 参考訳(メタデータ) (2025-03-18T11:59:24Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - AdaShadow: Responsive Test-time Model Adaptation in Non-stationary Mobile Environments [24.606016498430407]
本稿では,非定常移動データ配信と資源動態のための応答性テスト時間適応フレームワークであるAdaShadowを提案する。
AdaShadowは、レイヤの重要度とレイテンシを推定する上での課題と、最適なレイヤ更新計画のスケジューリングに対処する。
その結果,AdaShadowは連続的なシフトの下で最高の精度-遅延バランスを達成することがわかった。
論文 参考訳(メタデータ) (2024-10-10T16:41:39Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。