論文の概要: DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2312.09245v1
- Date: Thu, 14 Dec 2023 18:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 20:15:40.199973
- Title: DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving
- Title(参考訳): DriveMLM: 自律運転のための行動計画条件付き多モード大言語モデルのアラインメント
- Authors: Wenhai Wang, Jiangwei Xie, ChuanYang Hu, Haoming Zou, Jianan Fan,
Wenwen Tong, Yang Wen, Silei Wu, Hanming Deng, Zhiqi Li, Hao Tian, Lewei Lu,
Xizhou Zhu, Xiaogang Wang, Yu Qiao, Jifeng Dai
- Abstract要約: DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
- 参考スコア(独自算出の注目度): 69.82743399946371
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have opened up new possibilities for intelligent
agents, endowing them with human-like thinking and cognitive abilities. In this
work, we delve into the potential of large language models (LLMs) in autonomous
driving (AD). We introduce DriveMLM, an LLM-based AD framework that can perform
close-loop autonomous driving in realistic simulators. To this end, (1) we
bridge the gap between the language decisions and the vehicle control commands
by standardizing the decision states according to the off-the-shelf motion
planning module. (2) We employ a multi-modal LLM (MLLM) to model the behavior
planning module of a module AD system, which uses driving rules, user commands,
and inputs from various sensors (e.g., camera, lidar) as input and makes
driving decisions and provide explanations; This model can plug-and-play in
existing AD systems such as Apollo for close-loop driving. (3) We design an
effective data engine to collect a dataset that includes decision state and
corresponding explanation annotation for model training and evaluation. We
conduct extensive experiments and show that our model achieves 76.1 driving
score on the CARLA Town05 Long, and surpasses the Apollo baseline by 4.7 points
under the same settings, demonstrating the effectiveness of our model. We hope
this work can serve as a baseline for autonomous driving with LLMs. Code and
models shall be released at https://github.com/OpenGVLab/DriveMLM.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人間のような思考と認知能力を持つインテリジェントエージェントの新しい可能性を開く。
本研究では,自動運転(AD)における大規模言語モデル(LLM)の可能性を探究する。
我々は、現実のシミュレータでクローズループの自動運転を実行できるllmベースの広告フレームワークであるdrivemlmを紹介する。
この目的のために,(1)既成の移動計画モジュールに従って決定状態を標準化することにより,言語決定と車両制御コマンドのギャップを埋める。
2)マルチモーダルLCM(MLLM)を用いてモジュールADシステムの動作計画モジュールをモデル化し,各種センサ(例えばカメラ,ライダー)からの動作ルール,ユーザコマンド,入力を入力として使用し,運転決定を行い,説明を提供する。
(3)モデルトレーニングと評価のための決定状態とそれに対応する説明アノテーションを含むデータセットを収集する有効なデータエンジンを設計する。
広範な実験を行い,本モデルがcarla town05の運転スコア76.1を達成し,同じ条件下でアポロのベースラインを4.7ポイント上回り,本モデルの有効性を実証した。
LLMによる自動運転のベースラインとして機能することを願っている。
コードとモデルはhttps://github.com/OpenGVLab/DriveMLMで公開される。
関連論文リスト
- How to Build a Pre-trained Multimodal model for Simultaneously Chatting and Decision-making? [14.599617146656335]
私たちは、VLA4CD(Chatting and Decision Making)のためのVisual Language Action Modelと呼ばれる新しいモデルアーキテクチャを開発した。
我々はLoRAを利用して、言語、視覚、行動をカバーする複数のモダリティのデータを用いて、事前訓練されたLLMを微調整する。
これらの設計により、VLA4CDはテキスト応答を出力しながら連続的に評価されたアクション決定を提供することができる。
論文 参考訳(メタデータ) (2024-10-21T11:02:42Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - LMDrive: Closed-Loop End-to-End Driving with Large Language Models [37.910449013471656]
大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
論文 参考訳(メタデータ) (2023-12-12T18:24:15Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。