論文の概要: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- arxiv url: http://arxiv.org/abs/2310.01412v3
- Date: Tue, 13 Feb 2024 02:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:33:36.564788
- Title: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- Title(参考訳): drivegpt4: 大言語モデルによるエンドツーエンドの自動運転
- Authors: Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kwan-Yee. K.
Wong, Zhenguo Li, Hengshuang Zhao
- Abstract要約: 本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的な性能が向上した。
- 参考スコア(独自算出の注目度): 87.92911049154644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have emerged as a prominent area of
interest within the research community, given their proficiency in handling and
reasoning with non-textual data, including images and videos. This study seeks
to extend the application of MLLMs to the realm of autonomous driving by
introducing DriveGPT4, a novel interpretable end-to-end autonomous driving
system based on LLMs. Capable of processing multi-frame video inputs and
textual queries, DriveGPT4 facilitates the interpretation of vehicle actions,
offers pertinent reasoning, and effectively addresses a diverse range of
questions posed by users. Furthermore, DriveGPT4 predicts low-level vehicle
control signals in an end-to-end fashion. These advanced capabilities are
achieved through the utilization of a bespoke visual instruction tuning
dataset, specifically tailored for autonomous driving applications, in
conjunction with a mix-finetuning training strategy. DriveGPT4 represents the
pioneering effort to leverage LLMs for the development of an interpretable
end-to-end autonomous driving solution. Evaluations conducted on the BDD-X
dataset showcase the superior qualitative and quantitative performance of
DriveGPT4. Additionally, the fine-tuning of domain-specific data enables
DriveGPT4 to yield close or even improved results in terms of autonomous
driving grounding when contrasted with GPT4-V. The code and dataset will be
publicly available.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、画像やビデオを含む非テキストデータを扱う能力と推論能力から、研究コミュニティにおいて顕著な関心領域として浮上している。
本研究は, MLLMの自律運転領域への応用を, LLMに基づく新しい解釈可能なエンド・ツー・エンド自動運転システムであるDriveGPT4の導入により拡張することを目的とする。
複数フレームのビデオ入力とテキストクエリを処理できるDriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
さらに、DriveGPT4はエンドツーエンドで低レベル車両制御信号を予測する。
これらの高度な機能は、ミックスフィナントトレーニング戦略と合わせて、自動運転アプリケーション用に特別に調整された、bespoke visual instruction tuning datasetの利用によって達成される。
DriveGPT4は、解釈可能なエンドツーエンドの自動運転ソリューションの開発にLLMを活用する先駆的な取り組みである。
BDD-Xデータセットで行った評価では,DriveGPT4の質的,定量的性能が向上した。
さらに、ドメイン固有のデータの微調整により、DriveGPT4は、GPT4-Vと対照的に自律走行グラウンドの点において、近いあるいは改善された結果を得ることができる。
コードとデータセットは公開される予定だ。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LMDrive: Closed-Loop End-to-End Driving with Large Language Models [37.910449013471656]
大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
論文 参考訳(メタデータ) (2023-12-12T18:24:15Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for
Autonomous Driving [40.20124828096732]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。