論文の概要: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- arxiv url: http://arxiv.org/abs/2310.01412v1
- Date: Mon, 2 Oct 2023 17:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 20:09:11.339889
- Title: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large
Language Model
- Title(参考訳): drivegpt4: 大言語モデルによるエンドツーエンドの自動運転
- Authors: Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K.Y.
Wong, Zhenguo Li, Hengshuang Zhao
- Abstract要約: マルチモーダル大言語モデル(LLM)を用いた解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
- 参考スコア(独自算出の注目度): 80.08686597198889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade, autonomous driving has experienced rapid development in
both academia and industry. However, its limited interpretability remains a
significant unsolved problem, severely hindering autonomous vehicle
commercialization and further development. Previous approaches utilizing small
language models have failed to address this issue due to their lack of
flexibility, generalization ability, and robustness. Recently, multimodal large
language models (LLMs) have gained considerable attention from the research
community for their capability to process and reason non-text data (e.g.,
images and videos) by text. In this paper, we present DriveGPT4, an
interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is
capable of interpreting vehicle actions and providing corresponding reasoning,
as well as answering diverse questions posed by human users for enhanced
interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals
in an end-to-end fashion. These capabilities stem from a customized visual
instruction tuning dataset specifically designed for autonomous driving. To the
best of our knowledge, DriveGPT4 is the first work focusing on interpretable
end-to-end autonomous driving. When evaluated on multiple tasks alongside
conventional methods and video understanding LLMs, DriveGPT4 demonstrates
superior qualitative and quantitative performance. Additionally, DriveGPT4 can
be generalized in a zero-shot fashion to accommodate more unseen scenarios. The
project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ .
- Abstract(参考訳): 過去10年間、自動運転は学界と産業の両方で急速に発展してきた。
しかし、その限定的な解釈性は重要な未解決問題であり、自動運転車の商業化とさらなる開発を著しく妨げている。
従来の小さな言語モデルを用いたアプローチでは、柔軟性、一般化能力、堅牢性に欠けていたため、この問題に対処できなかった。
近年、マルチモーダルな大言語モデル(LLM)は、テキストによる非テキストデータ(画像やビデオなど)の処理と推論能力について、研究コミュニティから大きな注目を集めている。
本稿では,LLMを利用した解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。
DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。
さらに、DriveGPT4は車両の低レベル制御信号をエンドツーエンドで予測する。
これらの機能は、自動運転用に特別に設計されたカスタマイズされた視覚命令チューニングデータセットに由来する。
私たちの知る限り、drivegpt4は、解釈可能なエンドツーエンドの自動運転に焦点を当てた最初の作業です。
従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
さらに、drivegpt4はゼロショット方式で一般化でき、より目に見えないシナリオに対応できる。
プロジェクトページはhttps://tonyxuqaq.github.io/projects/drivegpt4/。
関連論文リスト
- Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。
我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。
本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:32:33Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。