論文の概要: LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.00284v1
- Date: Thu, 01 May 2025 04:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.217259
- Title: LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving
- Title(参考訳): LightEMMA:自律運転のための軽量エンドツーエンドマルチモーダルモデル
- Authors: Zhijie Qiao, Haowei Li, Zhong Cao, Henry X. Liu,
- Abstract要約: VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。
様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
- 参考スコア(独自算出の注目度): 9.447298958886265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated significant potential for end-to-end autonomous driving. However, fully exploiting their capabilities for safe and reliable vehicle control remains an open research challenge. To systematically examine advances and limitations of VLMs in driving tasks, we introduce LightEMMA, a Lightweight End-to-End Multimodal Model for Autonomous driving. LightEMMA provides a unified, VLM-based autonomous driving framework without ad hoc customizations, enabling easy integration and evaluation of evolving state-of-the-art commercial and open-source models. We construct twelve autonomous driving agents using various VLMs and evaluate their performance on the nuScenes prediction task, comprehensively assessing metrics such as inference time, computational cost, and predictive accuracy. Illustrative examples highlight that, despite their strong scenario interpretation capabilities, VLMs' practical performance in autonomous driving tasks remains concerning, emphasizing the need for further improvements. The code is available at https://github.com/michigan-traffic-lab/LightEMMA.
- Abstract(参考訳): VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。
しかし、安全で信頼性の高い車両制御のためにその能力を完全に活用することは、まだオープンな研究課題である。
運転タスクにおけるVLMの進歩と限界を体系的に検討するために,軽量エンド・エンド・エンド・エンド・マルチモーダル・モデルであるLightEMMAを導入する。
LightEMMAはアドホックなカスタマイズなしに、統一されたVLMベースの自動運転フレームワークを提供し、最先端の商用およびオープンソースモデルの容易な統合と評価を可能にする。
各種VLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価し,推定時間,計算コスト,予測精度などの指標を総合的に評価する。
説明的な例は、強いシナリオ解釈能力にもかかわらず、自律運転タスクにおけるVLMの実践的なパフォーマンスは引き続き重要であり、さらなる改善の必要性を強調している。
コードはhttps://github.com/michigan-traffic-lab/LightEMMAで公開されている。
関連論文リスト
- SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの両方を処理する。
構造化されていない知識と構造化されていない知識の両方を取り入れることでMLLMベースの自動運転システムを強化する新しいフレームワークであるSafeAutoを提案する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - PKRD-CoT: A Unified Chain-of-thought Prompting for Multi-Modal Large Language Models in Autonomous Driving [8.971981009717284]
本研究では、PKRD-CoTというゼロショットチェーン・オブ・ソートプロンプト設計を提案し、MLLMの自律運転システムへのシームレスな統合について検討する。
我々の設計では、MLLMは事前の経験なく問題に対処できるため、非構造自律運転環境における有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-02T23:08:38Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases [102.05741859030951]
自動運転コーナーケースにおけるLVLMの自動評価のための最初のベンチマークであるCODA-LMを提案する。
テキストのみの大規模言語モデルを判断として使用すると、LVLMの判断よりも人間の好みとの整合性が向上することを示す。
CODA-VLM は GPT-4V を+21.42% 上回っても GPT-4V と相容れない性能を示した。
論文 参考訳(メタデータ) (2024-04-16T14:20:55Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models [31.552397390480525]
視覚言語モデル(VLM)を活用した自律運転システムDriveVLMを紹介する。
DriveVLMは、シーン記述、シーン分析、階層計画のための推論モジュールのユニークな組み合わせを統合している。
本稿では,DriveVLMの強みを従来の自律走行パイプラインと相乗化するハイブリッドシステムであるDriveVLM-Dualを提案する。
論文 参考訳(メタデータ) (2024-02-19T17:04:04Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。