論文の概要: Vision Language Models in Autonomous Driving and Intelligent
Transportation Systems
- arxiv url: http://arxiv.org/abs/2310.14414v1
- Date: Sun, 22 Oct 2023 21:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 00:02:16.540013
- Title: Vision Language Models in Autonomous Driving and Intelligent
Transportation Systems
- Title(参考訳): 自律走行・インテリジェント交通システムにおける視覚言語モデル
- Authors: Xingcheng Zhou, Mingyu Liu, Bare Luka Zagar, Ekim Yurtsever, Alois C.
Knoll
- Abstract要約: 本研究の目的は、自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)における視覚言語モデル(VLM)の現状と今後の動向を研究者に提供することである。
- 参考スコア(独自算出の注目度): 29.43462426812185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The applications of Vision-Language Models (VLMs) in the fields of Autonomous
Driving (AD) and Intelligent Transportation Systems (ITS) have attracted
widespread attention due to their outstanding performance and the ability to
leverage Large Language Models (LLMs). By integrating language data, the
vehicles, and transportation systems are able to deeply understand real-world
environments, improving driving safety and efficiency. In this work, we present
a comprehensive survey of the advances in language models in this domain,
encompassing current models and datasets. Additionally, we explore the
potential applications and emerging research directions. Finally, we thoroughly
discuss the challenges and research gap. The paper aims to provide researchers
with the current work and future trends of VLMs in AD and ITS.
- Abstract(参考訳): 自律運転(AD)とインテリジェントトランスポーテーションシステム(ITS)の分野における視覚言語モデル(VLM)の適用は、その卓越した性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
言語データを統合することで、車両や交通システムは現実世界の環境を深く理解し、運転の安全性と効率を向上させることができる。
本研究では,この領域における言語モデルの発展について,現在のモデルとデータセットを包括的に調査する。
さらに,応用の可能性や研究の方向性についても検討する。
最後に,課題と研究のギャップを徹底的に議論する。
本研究の目的は,AD と ITS における VLM の現状と今後の動向を研究者に提供することである。
関連論文リスト
- Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks [8.548422411704218]
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。
大規模言語モデル (LLMs) の出現に伴い、多くの研究者がこれらのモデルと過去の手法を組み合わせ、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用した。
論文 参考訳(メタデータ) (2024-05-03T02:54:43Z) - LVLM-Intrepret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - World Models for Autonomous Driving: An Initial Survey [16.448614804069674]
将来の出来事を正確に予測し、その影響を評価する能力は、安全性と効率の両方において最重要である。
世界モデルは変革的なアプローチとして現れており、自律運転システムは大量のセンサーデータを合成し、解釈することができる。
本稿では,自律運転における世界モデルの現状と今後の展開について概説する。
論文 参考訳(メタデータ) (2024-03-05T03:23:55Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - A Survey on the Applications of Frontier AI, Foundation Models, and
Large Language Models to Intelligent Transportation Systems [8.017557640367938]
本稿では,知的交通システム(ITS)の領域におけるフロンティアAI,基礎モデル,大規模言語モデル(LLM)の変容的影響について検討する。
交通インテリジェンスを推進し、交通管理を最適化し、スマートシティの実現に寄与する重要な役割を強調している。
論文 参考訳(メタデータ) (2024-01-12T10:29:48Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-11-21T03:32:01Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [67.843551583229]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - Receive, Reason, and React: Drive as You Say with Large Language Models
in Autonomous Vehicles [13.102404404559428]
本稿では,Large Language Models (LLMs) を利用した自律走行車における意思決定プロセスを強化する新しいフレームワークを提案する。
我々の研究は、自動運転と戦術的意思決定タスクのための環境の集合であるHighwayEnvの実験を含む。
また、リアルタイムのパーソナライズも検討し、LLMが音声コマンドに基づいて運転行動にどう影響するかを示す。
論文 参考訳(メタデータ) (2023-10-12T04:56:01Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。