Fugu-MT 論文翻訳(概要): DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

論文の概要: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

arxiv url: http://arxiv.org/abs/2310.01412v1
Date: Mon, 2 Oct 2023 17:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 20:09:11.339889
Title: DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model
Title（参考訳）: drivegpt4: 大言語モデルによるエンドツーエンドの自動運転
Authors: Zhenhua Xu, Yujia Zhang, Enze Xie, Zhen Zhao, Yong Guo, Kenneth K.Y. Wong, Zhenguo Li, Hengshuang Zhao
Abstract要約: マルチモーダル大言語モデル(LLM)を用いた解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。 DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。
参考スコア（独自算出の注目度）: 80.08686597198889
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past decade, autonomous driving has experienced rapid development in both academia and industry. However, its limited interpretability remains a significant unsolved problem, severely hindering autonomous vehicle commercialization and further development. Previous approaches utilizing small language models have failed to address this issue due to their lack of flexibility, generalization ability, and robustness. Recently, multimodal large language models (LLMs) have gained considerable attention from the research community for their capability to process and reason non-text data (e.g., images and videos) by text. In this paper, we present DriveGPT4, an interpretable end-to-end autonomous driving system utilizing LLMs. DriveGPT4 is capable of interpreting vehicle actions and providing corresponding reasoning, as well as answering diverse questions posed by human users for enhanced interaction. Additionally, DriveGPT4 predicts vehicle low-level control signals in an end-to-end fashion. These capabilities stem from a customized visual instruction tuning dataset specifically designed for autonomous driving. To the best of our knowledge, DriveGPT4 is the first work focusing on interpretable end-to-end autonomous driving. When evaluated on multiple tasks alongside conventional methods and video understanding LLMs, DriveGPT4 demonstrates superior qualitative and quantitative performance. Additionally, DriveGPT4 can be generalized in a zero-shot fashion to accommodate more unseen scenarios. The project page is available at https://tonyxuqaq.github.io/projects/DriveGPT4/ .
Abstract（参考訳）: 過去10年間、自動運転は学界と産業の両方で急速に発展してきた。しかし、その限定的な解釈性は重要な未解決問題であり、自動運転車の商業化とさらなる開発を著しく妨げている。従来の小さな言語モデルを用いたアプローチでは、柔軟性、一般化能力、堅牢性に欠けていたため、この問題に対処できなかった。近年、マルチモーダルな大言語モデル(LLM)は、テキストによる非テキストデータ(画像やビデオなど)の処理と推論能力について、研究コミュニティから大きな注目を集めている。本稿では,LLMを利用した解釈可能なエンドツーエンド自動運転システムDriveGPT4を提案する。 DriveGPT4は、車両の動作を解釈し、対応する推論を提供するとともに、人間のユーザによる多様な質問に答えて、対話を強化することができる。さらに、DriveGPT4は車両の低レベル制御信号をエンドツーエンドで予測する。これらの機能は、自動運転用に特別に設計されたカスタマイズされた視覚命令チューニングデータセットに由来する。私たちの知る限り、drivegpt4は、解釈可能なエンドツーエンドの自動運転に焦点を当てた最初の作業です。従来の手法やビデオ理解LLMと並行して複数のタスクで評価すると,DriveGPT4は質的,定量的に優れた性能を示す。さらに、drivegpt4はゼロショット方式で一般化でき、より目に見えないシナリオに対応できる。プロジェクトページはhttps://tonyxuqaq.github.io/projects/drivegpt4/。

関連論文リスト

TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning [1.4087249809872509]
VLM(Vision-Language Models)は、シーン認識、推論、意思決定を強化する可能性を示している。既存のモデルは、計算オーバーヘッドとマルチビューセンサーデータの非効率な統合に悩まされている。本稿では,新しいテキストガイドソフトソートプール(TGSSP)モジュールを組み込んだ,TS-VLMという軽量なVLMを提案する。
論文参考訳（メタデータ） (2025-05-19T03:37:15Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文参考訳（メタデータ） (2025-02-03T14:22:03Z)
PKRD-CoT: A Unified Chain-of-thought Prompting for Multi-Modal Large Language Models in Autonomous Driving [8.971981009717284]
本研究では、PKRD-CoTというゼロショットチェーン・オブ・ソートプロンプト設計を提案し、MLLMの自律運転システムへのシームレスな統合について検討する。我々の設計では、MLLMは事前の経験なく問題に対処できるため、非構造自律運転環境における有効性を高めることができる。
論文参考訳（メタデータ） (2024-12-02T23:08:38Z)
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [65.04643267731122]
一般的なMLLMとCLIPの組み合わせは、駆動固有のシナリオを正確に表現するのに苦労することが多い。 Hints of Prompt (HoP) フレームワークを提案する。これらのヒントはHint Fusionモジュールを通じて融合され、視覚的表現が強化され、マルチモーダル推論が強化される。
論文参考訳（メタデータ） (2024-11-20T06:58:33Z)
Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文参考訳（メタデータ） (2024-10-20T04:36:19Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving [38.28159034562901]
Reason2Driveは600万以上のビデオテキストペアを備えたベンチマークデータセットである。我々は、自律運転プロセスが知覚、予測、推論ステップの逐次的な組み合わせであると特徴付けている。本稿では,自律システムにおける連鎖型推論性能を評価するための新しい集計評価指標を提案する。
論文参考訳（メタデータ） (2023-12-06T18:32:33Z)
LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文参考訳（メタデータ） (2023-11-02T07:23:33Z)
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文参考訳（メタデータ） (2023-10-26T17:56:35Z)
Receive, Reason, and React: Drive as You Say with Large Language Models in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文参考訳（メタデータ） (2023-10-12T04:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。