Fugu-MT 論文翻訳(概要): Vision Language Models in Autonomous Driving and Intelligent Transportation Systems

論文の概要: Vision Language Models in Autonomous Driving and Intelligent Transportation Systems

arxiv url: http://arxiv.org/abs/2310.14414v1
Date: Sun, 22 Oct 2023 21:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 00:02:16.540013
Title: Vision Language Models in Autonomous Driving and Intelligent Transportation Systems
Title（参考訳）: 自律走行・インテリジェント交通システムにおける視覚言語モデル
Authors: Xingcheng Zhou, Mingyu Liu, Bare Luka Zagar, Ekim Yurtsever, Alois C. Knoll
Abstract要約: 本研究の目的は、自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)における視覚言語モデル(VLM)の現状と今後の動向を研究者に提供することである。
参考スコア（独自算出の注目度）: 29.43462426812185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The applications of Vision-Language Models (VLMs) in the fields of Autonomous Driving (AD) and Intelligent Transportation Systems (ITS) have attracted widespread attention due to their outstanding performance and the ability to leverage Large Language Models (LLMs). By integrating language data, the vehicles, and transportation systems are able to deeply understand real-world environments, improving driving safety and efficiency. In this work, we present a comprehensive survey of the advances in language models in this domain, encompassing current models and datasets. Additionally, we explore the potential applications and emerging research directions. Finally, we thoroughly discuss the challenges and research gap. The paper aims to provide researchers with the current work and future trends of VLMs in AD and ITS.
Abstract（参考訳）: 自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)の分野における視覚言語モデル(VLM)の適用は、その卓越した性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。言語データを統合することで、車両や交通システムは現実世界の環境を深く理解し、運転の安全性と効率を向上させることができる。本研究では,この領域における言語モデルの発展について,現在のモデルとデータセットを包括的に調査する。さらに,応用の可能性や研究の方向性についても検討する。最後に,課題と研究のギャップを徹底的に議論する。本研究の目的は,AD と ITS における VLM の現状と今後の動向を研究者に提供することである。

関連論文リスト

OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2025-04-06T03:54:21Z)
Exploration of VLMs for Driver Monitoring Systems Applications [3.59361692183907]
近年,新たなディープラーニングモデル,特にLarge Language Models(LLM)とVision-Language Models(VLM)の進展が見られた。本稿では,ドライバモニタリングシステム(DMS)におけるVLMの実装について述べる。
論文参考訳（メタデータ） (2025-03-15T22:37:36Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文参考訳（メタデータ） (2025-01-12T01:31:07Z)
DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-10T17:27:32Z)
Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。本稿では,この2つの技術の関係について検討する。映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文参考訳（メタデータ） (2024-11-05T08:58:35Z)
Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文参考訳（メタデータ） (2024-10-20T04:36:19Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文参考訳（メタデータ） (2024-05-02T17:59:24Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文参考訳（メタデータ） (2024-01-04T11:27:48Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Prospective Role of Foundation Models in Advancing Autonomous Vehicles [19.606191410333363]
大規模ファンデーションモデル(FM)は自然言語処理やコンピュータビジョンを含む多くの分野において顕著な成果を上げている。本稿では,自動運転におけるFMの応用と今後の動向について述べる。
論文参考訳（メタデータ） (2023-12-08T15:35:24Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)
A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文参考訳（メタデータ） (2023-11-21T03:32:01Z)
LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文参考訳（メタデータ） (2023-11-02T07:23:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。