論文の概要: Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2506.05442v1
- Date: Thu, 05 Jun 2025 12:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.166017
- Title: Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving
- Title(参考訳): エンド・ツー・エンド自動運転のための高速ビジョンランゲージモデルを実現する構造化ラベル作成
- Authors: Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang,
- Abstract要約: VLM(Vision-Language Models)は、人間のような推論能力のために、エンドツーエンドの自動運転に有望なアプローチを提供する。
ゆるやかにフォーマットされた言語記述を持つ既存のデータセットは、マシンフレンドリではなく、冗長性を導入する可能性がある。
本稿では,NuScenesデータセットから派生した構造的かつ簡潔なベンチマークデータセットであるNuScenes-Sについて紹介する。
- 参考スコア(独自算出の注目度): 29.019907345552475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) offer a promising approach to end-to-end autonomous driving due to their human-like reasoning capabilities. However, troublesome gaps remains between current VLMs and real-world autonomous driving applications. One major limitation is that existing datasets with loosely formatted language descriptions are not machine-friendly and may introduce redundancy. Additionally, high computational cost and massive scale of VLMs hinder the inference speed and real-world deployment. To bridge the gap, this paper introduces a structured and concise benchmark dataset, NuScenes-S, which is derived from the NuScenes dataset and contains machine-friendly structured representations. Moreover, we present FastDrive, a compact VLM baseline with 0.9B parameters. In contrast to existing VLMs with over 7B parameters and unstructured language processing(e.g., LLaVA-1.5), FastDrive understands structured and concise descriptions and generates machine-friendly driving decisions with high efficiency. Extensive experiments show that FastDrive achieves competitive performance on structured dataset, with approximately 20% accuracy improvement on decision-making tasks, while surpassing massive parameter baseline in inference speed with over 10x speedup. Additionally, ablation studies further focus on the impact of scene annotations (e.g., weather, time of day) on decision-making tasks, demonstrating their importance on decision-making tasks in autonomous driving.
- Abstract(参考訳): VLM(Vision-Language Models)は、人間のような推論能力のために、エンドツーエンドの自動運転に有望なアプローチを提供する。
しかしながら、現在のVLMと現実の自動運転アプリケーションの間には、問題の多いギャップが残っている。
1つの大きな制限は、ゆるやかにフォーマットされた言語記述を持つ既存のデータセットは、マシンフレンドリではなく、冗長性を導入する可能性があることである。
さらに、高い計算コストと大規模なVLMは、推論速度と実世界の展開を妨げる。
このギャップを埋めるために,NuScenesデータセットから派生した構造的かつ簡潔なベンチマークデータセットであるNuScenes-Sを紹介した。
さらに、0.9Bパラメータを持つコンパクトなVLMベースラインであるFastDriveを提案する。
7B以上のパラメータと非構造化言語処理(例えばLLaVA-1.5)を持つ既存のVLMとは対照的に、FastDriveは構造化された簡潔な記述を理解し、高い効率でマシンフレンドリーな駆動決定を生成する。
大規模な実験により、FastDriveは構造化データセット上での競合性能を達成し、意思決定タスクで約20%の精度向上を実現した。
さらに、アブレーション研究は、意思決定タスクにおけるシーンアノテーション(例えば、天気、日時)の影響をさらに強調し、自律運転における意思決定タスクの重要性を示す。
関連論文リスト
- SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - VERDI: VLM-Embedded Reasoning for Autonomous Driving [33.66777025242027]
自律走行(VERDI)のためのVLM埋め込み推論を提案する。
VERDIはVision-Language Modelsの推論プロセスと常識知識をADスタックに蒸留する。
VERDIは、$ell_2$ distanceで10%の推論を埋め込まない既存のe2eメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-21T18:24:36Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement [4.534832757549232]
本稿では,自律運転のための新しい,効率的なVQAフレームワークであるLaVida Driveを紹介する。
LaVida Driveは、詳細な視覚知覚のための高解像度入力を維持しながら、時間データをシームレスに統合する。
複雑な詳細のための高分解能データを保持し、時間解析のために低分解能入力を使用することで空間処理を最適化する。
論文 参考訳(メタデータ) (2024-11-20T02:14:07Z) - Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language Models [16.532357621144342]
大規模言語モデル(LLM)は、人間の知覚と同じような精度で、運転シーンや行動を記述することができる。
エッジデバイスにLLMを適用した運転行動ナレーションと推論フレームワークを提案する。
実験により,エッジデバイスに展開したLCMは,応答速度が良好であることが確認された。
論文 参考訳(メタデータ) (2024-09-30T15:03:55Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。