論文の概要: AD-EE: Early Exiting for Fast and Reliable Vision-Language Models in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.05404v1
- Date: Wed, 04 Jun 2025 08:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.130295
- Title: AD-EE: Early Exiting for Fast and Reliable Vision-Language Models in Autonomous Driving
- Title(参考訳): AD-EE: 自動運転における高速で信頼性の高いビジョンランゲージモデルの早期導入
- Authors: Lianming Huang, Haibo Hu, Yufei Cui, Jiacheng Zuo, Shangyu Wu, Nan Guan, Chun Jason Xue,
- Abstract要約: VLM(Vision-Language Models)のリアルタイム適用は、高いレイテンシと計算オーバーヘッドによって妨げられる。
本稿では,自律運転の領域特性を取り入れた早期排他フレームワークAD-EEを提案する。
提案手法は遅延を著しく低減し,最大で57.58%まで向上し,オブジェクト検出精度を最大で44%向上した。
- 参考スコア(独自算出の注目度): 14.250084730478797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of autonomous driving, deploying Vision-Language Models (VLMs) to enhance perception and decision-making has become increasingly common. However, the real-time application of VLMs is hindered by high latency and computational overhead, limiting their effectiveness in time-critical driving scenarios. This challenge is particularly evident when VLMs exhibit over-inference, continuing to process unnecessary layers even after confident predictions have been reached. To address this inefficiency, we propose AD-EE, an Early Exit framework that incorporates domain characteristics of autonomous driving and leverages causal inference to identify optimal exit layers. We evaluate our method on large-scale real-world autonomous driving datasets, including Waymo and the corner-case-focused CODA, as well as on a real vehicle running the Autoware Universe platform. Extensive experiments across multiple VLMs show that our method significantly reduces latency, with maximum improvements reaching up to 57.58%, and enhances object detection accuracy, with maximum gains of up to 44%.
- Abstract(参考訳): 自動運転の急速な進歩に伴い、認識と意思決定を高めるためにビジョン・ランゲージ・モデル(VLM)の展開がますます一般的になっている。
しかしながら、VLMのリアルタイム適用は、高いレイテンシと計算オーバーヘッドによって妨げられ、時間クリティカルな運転シナリオにおける有効性を制限する。
この課題は、VLMが過剰な推論を示し、確実な予測が到達した後でも不要なレイヤを処理し続けるときに特に顕著である。
この非効率性に対処するために,自律運転のドメイン特性を取り入れ,因果推論を利用して最適な出口層を同定する早期出口フレームワークAD-EEを提案する。
我々は、WaymoやコーナーケースにフォーカスしたCODAを含む大規模現実の自動運転データセットと、Autoware Universeプラットフォームを運用する実車について評価を行った。
複数のVLMに対して大規模な実験を行った結果,最大57.58%に到達し,最大44%の精度で物体検出精度が向上した。
関連論文リスト
- DiffVLA: Vision-Language Guided Diffusion Planning for Autonomous Driving [15.457670964093156]
VLM(Vision-Language Model)による新しいハイブリッドスパース距離拡散政策を提案する。
提案手法は,現実的,反応的な合成シナリオを含む自律的グランドチャレンジ2025において,優れた性能を示す。
論文 参考訳(メタデータ) (2025-05-26T00:49:35Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文 参考訳(メタデータ) (2025-05-01T04:12:41Z) - VLM-C4L: Continual Core Dataset Learning with Corner Case Optimization via Vision-Language Models for Autonomous Driving [20.136096264189156]
コーナーケースデータセットを動的に最適化・拡張するために視覚言語モデル(VLM)を導入した連続学習フレームワークであるVLM-C4Lを提案する。
VLM-C4Lは、VLM誘導による高品質なデータ抽出とコアデータ再生戦略を組み合わせることで、モデルが多様なコーナーケースから漸進的に学習できるようにする。
論文 参考訳(メタデータ) (2025-03-29T11:40:34Z) - RAD: Retrieval-Augmented Decision-Making of Meta-Actions with Vision-Language Models in Autonomous Driving [10.984203470464687]
視覚言語モデル(VLM)は、空間認識の不十分さや幻覚といった限界に悩まされることが多い。
本稿では,自律走行シーンにおけるメタアクションを確実に生成するVLMの能力を高めるための,検索強化意思決定(RAD)フレームワークを提案する。
我々は,NuScenesデータセットから得られたデータセットに基づいてVLMを微調整し,その空間的知覚と鳥眼視画像理解能力を高める。
論文 参考訳(メタデータ) (2025-03-18T03:25:57Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。