論文の概要: LMDrive: Closed-Loop End-to-End Driving with Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07488v2
- Date: Thu, 21 Dec 2023 05:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 17:46:30.052189
- Title: LMDrive: Closed-Loop End-to-End Driving with Large Language Models
- Title(参考訳): LMDrive: 大規模言語モデルによるエンドツーエンド運転
- Authors: Hao Shao, Yuxuan Hu, Letian Wang, Steven L. Waslander, Yu Liu,
Hongsheng Li
- Abstract要約: 大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
本稿では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
- 参考スコア(独自算出の注目度): 37.910449013471656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant recent progress in the field of autonomous driving,
modern methods still struggle and can incur serious accidents when encountering
long-tail unforeseen events and challenging urban scenarios. On the one hand,
large language models (LLM) have shown impressive reasoning capabilities that
approach "Artificial General Intelligence". On the other hand, previous
autonomous driving methods tend to rely on limited-format inputs (e.g. sensor
data and navigation waypoints), restricting the vehicle's ability to understand
language information and interact with humans. To this end, this paper
introduces LMDrive, a novel language-guided, end-to-end, closed-loop autonomous
driving framework. LMDrive uniquely processes and integrates multi-modal sensor
data with natural language instructions, enabling interaction with humans and
navigation software in realistic instructional settings. To facilitate further
research in language-based closed-loop autonomous driving, we also publicly
release the corresponding dataset which includes approximately 64K
instruction-following data clips, and the LangAuto benchmark that tests the
system's ability to handle complex instructions and challenging driving
scenarios. Extensive closed-loop experiments are conducted to demonstrate
LMDrive's effectiveness. To the best of our knowledge, we're the very first
work to leverage LLMs for closed-loop end-to-end autonomous driving. Codes,
models, and datasets can be found at https://github.com/opendilab/LMDrive
- Abstract(参考訳): 自動運転の分野における最近の大きな進歩にもかかわらず、現代の手法は依然として苦戦し、長期にわたる予期せぬ出来事や都市シナリオに遭遇した場合に深刻な事故を引き起こす可能性がある。
一方、大規模言語モデル(LLM)は、"Artificial General Intelligence"にアプローチする印象的な推論能力を示している。
一方、従来の自律運転法は限定的な入力(センサデータやナビゲーションの経路ポイントなど)に依存し、車両が言語情報を理解し人間と対話する能力を制限する傾向にある。
そこで本研究では,新しい言語誘導,エンドツーエンド,クローズドループ自動運転フレームワークLMDriveを紹介する。
LMDriveは、マルチモーダルセンサーデータを自然言語命令と一意に処理し統合し、現実的な命令設定で人間やナビゲーションソフトウェアとの対話を可能にする。
言語ベースのクローズドループ自動運転のさらなる研究を促進するために、約64Kの命令追従データクリップを含む対応するデータセットと、複雑な命令を処理するシステムの能力と運転シナリオの課題をテストするLangAutoベンチマークも公開しています。
LMDriveの有効性を示す大規模なクローズドループ実験を行った。
私たちの知る限りでは、私たちはLLMをクローズドループのエンドツーエンド自動運転に活用する最初の取り組みです。
コード、モデル、データセットはhttps://github.com/opendilab/LMDriveにある。
関連論文リスト
- CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Instruct Large Language Models to Drive like Humans [33.219883052634614]
本研究では,大規模言語モデルを運動プランナに変換するインストラクトドライブ手法を提案する。
人間の論理に基づく運転指導データを導出する。
次に、最終計画をさらに推論するために解釈可能なInstructChainモジュールを使用します。
論文 参考訳(メタデータ) (2024-06-11T14:24:45Z) - Hybrid Reasoning Based on Large Language Models for Autonomous Car Driving [14.64475022650084]
大規模言語モデル(LLM)は、テキストや画像を理解し、人間に似たテキストを生成し、複雑な推論タスクを実行する能力において、大きな注目を集めている。
算術的推論と常識的推論の組み合わせ,特に自律運転シナリオにおけるLLMの適応性について検討する。
論文 参考訳(メタデータ) (2024-02-21T08:09:05Z) - Personalized Autonomous Driving with Large Language Models: Field Experiments [11.429053835807697]
LLMベースのフレームワークであるTalk2Driveを導入し、自然言語コマンドを実行可能なコントロールに翻訳する。
これは、LLMを現実世界の自動運転車にデプロイする、最初の種類のマルチシナリオフィールド実験である。
提案するメモリモジュールは、パーソナライズされた好みを考慮し、さらに65.2%のテイクオーバ率を低下させる。
論文 参考訳(メタデータ) (2023-12-14T23:23:37Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。