Fugu-MT 論文翻訳(概要): Probing Multimodal LLMs as World Models for Driving

論文の概要: Probing Multimodal LLMs as World Models for Driving

arxiv url: http://arxiv.org/abs/2405.05956v1
Date: Thu, 9 May 2024 17:52:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 12:33:18.751246
Title: Probing Multimodal LLMs as World Models for Driving
Title（参考訳）: ドライビングの世界モデルとしてのマルチモーダルLCMの提案
Authors: Shiva Sreeram, Tsun-Hsuan Wang, Alaa Maalouf, Guy Rosman, Sertac Karaman, Daniela Rus,
Abstract要約: 本研究は,自律運転分野におけるMLLM(Multimodal Large Language Models)の適用に焦点を当てた。我々は、固定車載カメラの観点から、様々なMLLMの運転能力を世界モデルとして評価する。以上の結果から,最先端MLLMの現在の能力に重要なギャップがあることが示唆された。
参考スコア（独自算出の注目度）: 72.18727651074563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We provide a sober look at the application of Multimodal Large Language Models (MLLMs) within the domain of autonomous driving and challenge/verify some common assumptions, focusing on their ability to reason and interpret dynamic driving scenarios through sequences of images/frames in a closed-loop control environment. Despite the significant advancements in MLLMs like GPT-4V, their performance in complex, dynamic driving environments remains largely untested and presents a wide area of exploration. We conduct a comprehensive experimental study to evaluate the capability of various MLLMs as world models for driving from the perspective of a fixed in-car camera. Our findings reveal that, while these models proficiently interpret individual images, they struggle significantly with synthesizing coherent narratives or logical sequences across frames depicting dynamic behavior. The experiments demonstrate considerable inaccuracies in predicting (i) basic vehicle dynamics (forward/backward, acceleration/deceleration, turning right or left), (ii) interactions with other road actors (e.g., identifying speeding cars or heavy traffic), (iii) trajectory planning, and (iv) open-set dynamic scene reasoning, suggesting biases in the models' training data. To enable this experimental study we introduce a specialized simulator, DriveSim, designed to generate diverse driving scenarios, providing a platform for evaluating MLLMs in the realms of driving. Additionally, we contribute the full open-source code and a new dataset, "Eval-LLM-Drive", for evaluating MLLMs in driving. Our results highlight a critical gap in the current capabilities of state-of-the-art MLLMs, underscoring the need for enhanced foundation models to improve their applicability in real-world dynamic environments.
Abstract（参考訳）: 本稿では,自律運転領域におけるマルチモーダル大言語モデル (MLLM) の適用を概観し,クローズドループ制御環境における画像・フレームのシーケンスを通して動的駆動シナリオを推論・解釈する能力に着目し,いくつかの共通前提に挑戦・検証する。 GPT-4VのようなMLLMの大幅な進歩にもかかわらず、複雑な動的駆動環境におけるそれらの性能はほとんど試験されていないままであり、広い範囲の探査を行っている。我々は、固定車載カメラの観点から、様々なMLLMを世界モデルとして評価するための総合的な実験を行った。その結果,これらのモデルは個々の画像の解釈に優れる一方で,動的挙動を表現したフレーム間のコヒーレントな物語や論理列の合成に苦慮していることが判明した。実験は予測にかなりの不正確さを示した一基本的な車両動力学(前方/後方、加速/減速、左右旋回) (二)他のロードアクターとの交流(例えば、スピード違反車又は大渋滞の特定) (三)軌道計画、及び (4) モデルトレーニングデータのバイアスを示唆する、オープンセットのダイナミックシーン推論。この実験的な研究を可能にするために、様々な運転シナリオを生成するために設計された特別シミュレータDriveSimを導入し、運転領域におけるMLLMを評価するためのプラットフォームを提供する。さらに、運転中のMLLMを評価するために、完全なオープンソースコードと新しいデータセット「Eval-LLM-Drive」をコントリビュートする。本結果は,現状のMLLMの能力に重要なギャップを生じさせ,現実の動的環境における適用性を改善するための基盤モデルの改善の必要性を浮き彫りにしている。

関連論文リスト

Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles [5.312025021315423]
本稿では、ゼロショット・インコンテキスト学習環境におけるシーン理解のための4つのマルチモーダル大規模言語モデル(MLLM)の能力を評価する。実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-18T00:43:12Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文参考訳（メタデータ） (2025-01-20T04:00:02Z)
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文参考訳（メタデータ） (2024-12-24T18:59:37Z)
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。 DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文参考訳（メタデータ） (2024-11-20T08:14:01Z)
Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。本稿では,この2つの技術の関係について検討する。映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文参考訳（メタデータ） (2024-11-05T08:58:35Z)
Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation, and Real-Vehicle Experiment [15.52530518623987]
大規模言語モデル(LLM)は、自律運転システムの様々な側面を強化する可能性を秘めている。本稿では,LLMを自動走行(LLM4AD)用に設計するための新しい概念とアプローチを紹介する。
論文参考訳（メタデータ） (2024-10-20T04:36:19Z)
DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文参考訳（メタデータ） (2024-10-14T17:19:23Z)
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving [12.004183122121042]
OccLLaMA (OccLLaMA) は、言語による世界モデルである。私たちは、視覚、言語、行動のための統合されたマルチモーダル語彙を構築します。 OccLLaMAは複数のタスクで競合性能を達成する。
論文参考訳（メタデータ） (2024-09-05T06:30:01Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2021-10-02T13:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。