論文の概要: A Survey on Multimodal Large Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2311.12320v1
- Date: Tue, 21 Nov 2023 03:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:06:11.326168
- Title: A Survey on Multimodal Large Language Models for Autonomous Driving
- Title(参考訳): 自動運転のためのマルチモーダル大言語モデルに関する研究
- Authors: Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang,
Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li,
Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao,
Ziran Wang, Chao Zheng
- Abstract要約: 大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
- 参考スコア(独自算出の注目度): 31.614730391949657
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the emergence of Large Language Models (LLMs) and Vision Foundation
Models (VFMs), multimodal AI systems benefiting from large models have the
potential to equally perceive the real world, make decisions, and control tools
as humans. In recent months, LLMs have shown widespread attention in autonomous
driving and map systems. Despite its immense potential, there is still a lack
of a comprehensive understanding of key challenges, opportunities, and future
endeavors to apply in LLM driving systems. In this paper, we present a
systematic investigation in this field. We first introduce the background of
Multimodal Large Language Models (MLLMs), the multimodal models development
using LLMs, and the history of autonomous driving. Then, we overview existing
MLLM tools for driving, transportation, and map systems together with existing
datasets and benchmarks. Moreover, we summarized the works in The 1st WACV
Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD),
which is the first workshop of its kind regarding LLMs in autonomous driving.
To further promote the development of this field, we also discuss several
important problems regarding using MLLMs in autonomous driving systems that
need to be solved by both academia and industry.
- Abstract(参考訳): LLM(Large Language Models)とVFM(Vision Foundation Models)の出現により、大規模モデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を平等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
近年、LLMは自動運転と地図システムに広く注目されている。
その大きな可能性にもかかわらず、LLM運転システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
本稿では,この分野における系統的調査について述べる。
まず,MLLM(Multimodal Large Language Models)の背景,LSMを用いたマルチモーダルモデル開発,自動運転の歴史を紹介する。
そして、既存のデータセットとベンチマークとともに、運転、輸送、マップシステムのための既存のMLLMツールの概要を述べる。
さらに, 自動運転におけるLLMに関する最初のワークショップである, The 1st WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD) を要約した。
また、この分野の発展をさらに促進するために、学術と産業の両方で解決する必要がある自動運転システムにおけるMLLMの使用に関するいくつかの重要な課題についても論じる。
関連論文リスト
- Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Vision Language Models in Autonomous Driving: A Survey and Outlook [26.70381732289961]
視覚言語モデル(VLM)は、その優れた性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
本稿では,この領域における視覚言語モデルの進歩を包括的かつ体系的に調査し,認識と理解,ナビゲーションと計画,意思決定と制御,エンドツーエンドの自動運転,データ生成などを紹介する。
論文 参考訳(メタデータ) (2023-10-22T21:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。