論文の概要: Probing Multimodal LLMs as World Models for Driving
- arxiv url: http://arxiv.org/abs/2405.05956v1
- Date: Thu, 9 May 2024 17:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 12:33:18.751246
- Title: Probing Multimodal LLMs as World Models for Driving
- Title(参考訳): ドライビングの世界モデルとしてのマルチモーダルLCMの提案
- Authors: Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus,
- Abstract要約: 本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。
我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。
以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
- 参考スコア(独自算出の注目度): 72.18727651074563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a sober look at the application of Multimodal Large Language Models (MLLMs) within the domain of autonomous driving and challenge/verify some common assumptions, focusing on their ability to reason and interpret dynamic driving scenarios through sequences of images/frames in a closed-loop control environment. Despite the significant advancements in MLLMs like GPT-4V, their performance in complex, dynamic driving environments remains largely untested and presents a wide area of exploration. We conduct a comprehensive experimental study to evaluate the capability of various MLLMs as world models for driving from the perspective of a fixed in-car camera. Our findings reveal that, while these models proficiently interpret individual images, they struggle significantly with synthesizing coherent narratives or logical sequences across frames depicting dynamic behavior. The experiments demonstrate considerable inaccuracies in predicting (i) basic vehicle dynamics (forward/backward, acceleration/deceleration, turning right or left), (ii) interactions with other road actors (e.g., identifying speeding cars or heavy traffic), (iii) trajectory planning, and (iv) open-set dynamic scene reasoning, suggesting biases in the models' training data. To enable this experimental study we introduce a specialized simulator, DriveSim, designed to generate diverse driving scenarios, providing a platform for evaluating MLLMs in the realms of driving. Additionally, we contribute the full open-source code and a new dataset, "Eval-LLM-Drive", for evaluating MLLMs in driving. Our results highlight a critical gap in the current capabilities of state-of-the-art MLLMs, underscoring the need for enhanced foundation models to improve their applicability in real-world dynamic environments.
- Abstract(参考訳): 本稿では,自律運転領域におけるマルチモーダル大言語モデル (MLLM) の適用を概観し,クローズドループ制御環境における画像・フレームのシーケンスを通して動的駆動シナリオを推論・解釈する能力に着目し,いくつかの共通前提に挑戦・検証する。
GPT-4VのようなMLLMの大幅な進歩にもかかわらず、複雑な動的駆動環境におけるそれらの性能はほとんど試験されていないままであり、広い範囲の探査を行っている。
我々は、固定車載カメラの観点から、様々なMLLMを世界モデルとして評価するための総合的な実験を行った。
その結果,これらのモデルは個々の画像の解釈に優れる一方で,動的挙動を表現したフレーム間のコヒーレントな物語や論理列の合成に苦慮していることが判明した。
実験は予測にかなりの不正確さを示した
一 基本的な車両動力学(前方/後方、加速/減速、左右旋回)
(二)他のロードアクターとの交流(例えば、スピード違反車又は大渋滞の特定)
(三)軌道計画、及び
(4) モデルトレーニングデータのバイアスを示唆する、オープンセットのダイナミックシーン推論。
この実験的な研究を可能にするために、様々な運転シナリオを生成するために設計された特別シミュレータDriveSimを導入し、運転領域におけるMLLMを評価するためのプラットフォームを提供する。
さらに、運転中のMLLMを評価するために、完全なオープンソースコードと新しいデータセット「Eval-LLM-Drive」をコントリビュートする。
本結果は,現状のMLLMの能力に重要なギャップを生じさせ,現実の動的環境における適用性を改善するための基盤モデルの改善の必要性を浮き彫りにしている。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。
私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文 参考訳(メタデータ) (2024-10-14T17:19:23Z) - OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。
私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。
OccLLaMAは複数のタスクで競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-05T06:30:01Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。