Fugu-MT 論文翻訳(概要): DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

論文の概要: DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.12289v3
Date: Sun, 31 Mar 2024 17:08:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-02 14:04:28.419013
Title: DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models
Title（参考訳）: DriveVLM: 自律走行と大規模ビジョンランゲージモデルの収束性
Authors: Xiaoyu Tian, Junru Gu, Bailin Li, Yicheng Liu, Chenxu Hu, Yang Wang, Kun Zhan, Peng Jia, Xianpeng Lang, Hang Zhao,
Abstract要約: 視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。 DriveVLMは、シーン記述、シーン分析、階層的計画のためのチェーン・オブ・シント(CoT)モジュールのユニークな組み合わせを統合している。本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
参考スコア（独自算出の注目度）: 33.156080594410504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A primary hurdle of autonomous driving in urban environments is understanding complex and long-tail scenarios, such as challenging road conditions and delicate human behaviors. We introduce DriveVLM, an autonomous driving system leveraging Vision-Language Models (VLMs) for enhanced scene understanding and planning capabilities. DriveVLM integrates a unique combination of chain-of-thought (CoT) modules for scene description, scene analysis, and hierarchical planning. Furthermore, recognizing the limitations of VLMs in spatial reasoning and heavy computational requirements, we propose DriveVLM-Dual, a hybrid system that synergizes the strengths of DriveVLM with the traditional autonomous driving pipeline. DriveVLM-Dual achieves robust spatial understanding and real-time inference speed. Extensive experiments on both the nuScenes dataset and our SUP-AD dataset demonstrate the effectiveness of DriveVLM and the enhanced performance of DriveVLM-Dual, surpassing existing methods in complex and unpredictable driving conditions.
Abstract（参考訳）: 都市環境における自律運転の主なハードルは、困難な道路条件や繊細な人間の行動など、複雑で長い尾のシナリオを理解することである。本稿では,視覚言語モデル(VLM)を活用した自律走行システムであるDriveVLMを紹介した。 DriveVLMは、シーン記述、シーン分析、階層的計画のためのチェーン・オブ・シント(CoT)モジュールのユニークな組み合わせを統合している。さらに,空間的推論におけるVLMの限界を認識し,従来の自律走行パイプラインとDriveVLMの強みを相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。 DriveVLM-Dualは、堅牢な空間理解とリアルタイム推論速度を実現する。 nuScenesデータセットとSUP-ADデータセットの併用実験により,DriveVLMの有効性とDriveVLM-Dualの性能向上が実証された。

関連論文リスト

SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文参考訳（メタデータ） (2025-05-01T04:12:41Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2025-04-06T03:54:21Z)
OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model [24.90085777003393]
エンド・ツー・エンドの自動運転用に設計されたビジョン・ランゲージ・アクション(VLA)モデルであるOpenDriveVLAを提案する。 OpenDriveVLAは、オープンソースのトレーニング済みの大型ビジョンランゲージモデル(VLM)上に構築され、信頼性の高い駆動アクションを生成する。
論文参考訳（メタデータ） (2025-03-30T14:45:54Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文参考訳（メタデータ） (2024-08-29T15:52:56Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
本稿では、V2Xシステムと大型ビジョン言語モデル(VLM)を備えた、革新的なE2E車両・インフラ協調自動運転(VICAD)フレームワークであるV2X-VLMを紹介する。 V2X-VLMは、車両に搭載されたカメラ、インフラセンサー、およびテキスト情報からの多モデルデータを統合することで、状況認識、意思決定、究極の軌道計画を強化するように設計されている。 DAIR-V2Xデータセットの評価は、V2X-VLMが最先端の協調運転法より優れていることを示している。
論文参考訳（メタデータ） (2024-08-17T16:42:13Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文参考訳（メタデータ） (2024-01-10T23:00:40Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。 DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文参考訳（メタデータ） (2023-10-02T17:59:52Z)
Generative AI-empowered Simulation for Autonomous Driving in Vehicular Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-02-16T16:54:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。