論文の概要: A Survey on Multimodal Large Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.12320v1
- Date: Tue, 21 Nov 2023 03:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:06:11.326168
- Title: A Survey on Multimodal Large Language Models for Autonomous Driving
- Title(参考訳): 自動運転のためのマルチモーダル大言語モデルに関する研究
- Authors: Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang,
Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li,
Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao,
Ziran Wang, Chao Zheng
- Abstract要約: 大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
- 参考スコア(独自算出の注目度): 31.614730391949657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of Large Language Models (LLMs) and Vision Foundation
Models (VFMs), multimodal AI systems benefiting from large models have the
potential to equally perceive the real world, make decisions, and control tools
as humans. In recent months, LLMs have shown widespread attention in autonomous
driving and map systems. Despite its immense potential, there is still a lack
of a comprehensive understanding of key challenges, opportunities, and future
endeavors to apply in LLM driving systems. In this paper, we present a
systematic investigation in this field. We first introduce the background of
Multimodal Large Language Models (MLLMs), the multimodal models development
using LLMs, and the history of autonomous driving. Then, we overview existing
MLLM tools for driving, transportation, and map systems together with existing
datasets and benchmarks. Moreover, we summarized the works in The 1st WACV
Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD),
which is the first workshop of its kind regarding LLMs in autonomous driving.
To further promote the development of this field, we also discuss several
important problems regarding using MLLMs in autonomous driving systems that
need to be solved by both academia and industry.
- Abstract(参考訳): LLM(Large Language Models)とVFM(Vision Foundation Models)の出現により、大規模モデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を平等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
近年、LLMは自動運転と地図システムに広く注目されている。
その大きな可能性にもかかわらず、LLM運転システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
本稿では,この分野における系統的調査について述べる。
まず,MLLM(Multimodal Large Language Models)の背景,LSMを用いたマルチモーダルモデル開発,自動運転の歴史を紹介する。
そして、既存のデータセットとベンチマークとともに、運転、輸送、マップシステムのための既存のMLLMツールの概要を述べる。
さらに, 自動運転におけるLLMに関する最初のワークショップである, The 1st WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD) を要約した。
また、この分野の発展をさらに促進するために、学術と産業の両方で解決する必要がある自動運転システムにおけるMLLMの使用に関するいくつかの重要な課題についても論じる。
関連論文リスト
- Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Evaluation of Large Language Models for Decision Making in Autonomous
Driving [4.271294502084542]
自律走行にLarge Language Models (LLMs)を使用する一つの戦略は、周囲のオブジェクトを LLM にテキストプロンプトとして入力することである。
このような目的のためにLLMを使用する場合、空間認識や計画などの能力は不可欠である。
本研究は、自律運転の文脈におけるLLMの2つの能力について定量的に評価した。
論文 参考訳(メタデータ) (2023-12-11T12:56:40Z) - Applications of Large Scale Foundation Models for Autonomous Driving [22.651585322658686]
大規模言語モデル(LLM)とチャットシステム、例えばチャットGPTやPaLMは、自然言語処理(NLP)において人工知能(AGI)を実現するための有望な方向性として急速に現れつつある。
本稿では、シミュレーション、世界モデル、データアノテーションと計画、E2Eソリューションなどに分類される、自動運転に応用された基礎モデルとLLMの技術について検討する。
論文 参考訳(メタデータ) (2023-11-20T19:45:27Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Vision Language Models in Autonomous Driving and Intelligent
Transportation Systems [29.43462426812185]
本研究の目的は、自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)における視覚言語モデル(VLM)の現状と今後の動向を研究者に提供することである。
論文 参考訳(メタデータ) (2023-10-22T21:06:10Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - A Survey on Multimodal Large Language Models [56.754753799607585]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。
MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - AutoML in the Age of Large Language Models: Current Challenges, Future
Opportunities and Risks [62.05741061393927]
この2つの分野は、緊密な統合によって相互の境界を根本的に押し付けることができると想定している。
認識可能な相乗効果だけでなくリスクも強調することにより、AutoMLとLCMの交差点でのさらなる探索を促進することを目指している。
論文 参考訳(メタデータ) (2023-06-13T19:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。