論文の概要: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- arxiv url: http://arxiv.org/abs/2310.01412v1
- Date: Mon, 2 Oct 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:09:11.339889
- Title: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- Title(参考訳): drivegpt4: 大言語モデルによるエンドツーエンドの自動運転
- Authors: Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K.Y.
Wong, Zhenguo Li, Hengshuang Zhao
- Abstract要約: マルチモーダル大言語モデル(LLM)を用いた解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
- 参考スコア(独自算出の注目度): 80.08686597198889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, autonomous driving has experienced rapid development in
both academia and industry. However, its limited interpretability remains a
significant unsolved problem, severely hindering autonomous vehicle
commercialization and further development. Previous approaches utilizing small
language models have failed to address this issue due to their lack of
flexibility, generalization ability, and robustness. Recently, multimodal large
language models (LLMs) have gained considerable attention from the research
community for their capability to process and reason non-text data (e.g.,
images and videos) by text. In this paper, we present DriveGPT4, an
interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is
capable of interpreting vehicle actions and providing corresponding reasoning,
as well as answering diverse questions posed by human users for enhanced
interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals
in an end-to-end fashion. These capabilities stem from a customized visual
instruction tuning dataset specifically designed for autonomous driving. To the
best of our knowledge, DriveGPT4 is the first work focusing on interpretable
end-to-end autonomous driving. When evaluated on multiple tasks alongside
conventional methods and video understanding LLMs, DriveGPT4 demonstrates
superior qualitative and quantitative performance. Additionally, DriveGPT4 can
be generalized in a zero-shot fashion to accommodate more unseen scenarios. The
project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ .
- Abstract(参考訳): 過去10年間、自動運転は学界と産業の両方で急速に発展してきた。
しかし、その限定的な解釈性は重要な未解決問題であり、自動運転車の商業化とさらなる開発を著しく妨げている。
従来の小さな言語モデルを用いたアプローチでは、柔軟性、一般化能力、堅牢性に欠けていたため、この問題に対処できなかった。
近年、マルチモーダルな大言語モデル(LLM)は、テキストによる非テキストデータ(画像やビデオなど)の処理と推論能力について、研究コミュニティから大きな注目を集めている。
本稿では,LLMを利用した解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
さらに、DriveGPT4は車両の低レベル制御信号をエンドツーエンドで予測する。
これらの機能は、自動運転用に特別に設計されたカスタマイズされた視覚命令チューニングデータセットに由来する。
私たちの知る限り、drivegpt4は、解釈可能なエンドツーエンドの自動運転に焦点を当てた最初の作業です。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
さらに、drivegpt4はゼロショット方式で一般化でき、より目に見えないシナリオに対応できる。
プロジェクトページはhttps://tonyxuqaq.github.io/projects/drivegpt4/。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving [81.04174379726251]
本稿では,DriveCoTというエンド・ツー・エンドの運転データセットを総合的に収集する。
センサーデータ、制御決定、および推論プロセスを示すチェーン・オブ・シークレット・ラベルが含まれている。
我々は,私たちのデータセットに基づいてトレーニングされたDriveCoT-Agentと呼ばれるベースラインモデルを提案し,連鎖予測と最終決定を生成する。
論文 参考訳(メタデータ) (2024-03-25T17:59:01Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LMDrive: Closed-Loop End-to-End Driving with Large Language Models [37.910449013471656]
大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
論文 参考訳(メタデータ) (2023-12-12T18:24:15Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for
Autonomous Driving [40.20124828096732]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。