論文の概要: Vision Language Models in Autonomous Driving and Intelligent
Transportation Systems
- arxiv url: http://arxiv.org/abs/2310.14414v1
- Date: Sun, 22 Oct 2023 21:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:02:16.540013
- Title: Vision Language Models in Autonomous Driving and Intelligent
Transportation Systems
- Title(参考訳): 自律走行・インテリジェント交通システムにおける視覚言語モデル
- Authors: Xingcheng Zhou, Mingyu Liu, Bare Luka Zagar, Ekim Yurtsever, Alois C.
Knoll
- Abstract要約: 本研究の目的は、自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)における視覚言語モデル(VLM)の現状と今後の動向を研究者に提供することである。
- 参考スコア(独自算出の注目度): 29.43462426812185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applications of Vision-Language Models (VLMs) in the fields of Autonomous
Driving (AD) and Intelligent Transportation Systems (ITS) have attracted
widespread attention due to their outstanding performance and the ability to
leverage Large Language Models (LLMs). By integrating language data, the
vehicles, and transportation systems are able to deeply understand real-world
environments, improving driving safety and efficiency. In this work, we present
a comprehensive survey of the advances in language models in this domain,
encompassing current models and datasets. Additionally, we explore the
potential applications and emerging research directions. Finally, we thoroughly
discuss the challenges and research gap. The paper aims to provide researchers
with the current work and future trends of VLMs in AD and ITS.
- Abstract(参考訳): 自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)の分野における視覚言語モデル(VLM)の適用は、その卓越した性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
言語データを統合することで、車両や交通システムは現実世界の環境を深く理解し、運転の安全性と効率を向上させることができる。
本研究では,この領域における言語モデルの発展について,現在のモデルとデータセットを包括的に調査する。
さらに,応用の可能性や研究の方向性についても検討する。
最後に,課題と研究のギャップを徹底的に議論する。
本研究の目的は,AD と ITS における VLM の現状と今後の動向を研究者に提供することである。
関連論文リスト
- Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。
本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文 参考訳(メタデータ) (2024-10-20T04:36:19Z) - CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。
このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文 参考訳(メタデータ) (2024-08-19T09:53:49Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Prospective Role of Foundation Models in Advancing Autonomous Vehicles [19.606191410333363]
大規模ファンデーションモデル(FM)は自然言語処理やコンピュータビジョンを含む多くの分野において顕著な成果を上げている。
本稿では,自動運転におけるFMの応用と今後の動向について述べる。
論文 参考訳(メタデータ) (2023-12-08T15:35:24Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-11-21T03:32:01Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。