論文の概要: DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.07689v3
- Date: Fri, 13 Dec 2024 08:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 11:42:52.287789
- Title: DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
- Title(参考訳): DriveMM:自動運転のためのオールインワン大規模マルチモーダルモデル
- Authors: Zhijian Huang, Chengjian Feng, Feng Yan, Baihui Xiao, Zequn Jie, Yujie Zhong, Xiaodan Liang, Lin Ma,
- Abstract要約: DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 63.882827922267666
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated exceptional comprehension and interpretation capabilities in Autonomous Driving (AD) by incorporating large language models. Despite the advancements, current data-driven AD approaches tend to concentrate on a single dataset and specific tasks, neglecting their overall capabilities and ability to generalize. To bridge these gaps, we propose DriveMM, a general large multimodal model designed to process diverse data inputs, such as images and multi-view videos, while performing a broad spectrum of AD tasks, including perception, prediction, and planning. Initially, the model undergoes curriculum pre-training to process varied visual signals and perform basic visual comprehension and perception tasks. Subsequently, we augment and standardize various AD-related datasets to fine-tune the model, resulting in an all-in-one LMM for autonomous driving. To assess the general capabilities and generalization ability, we conduct evaluations on six public benchmarks and undertake zero-shot transfer on an unseen dataset, where DriveMM achieves state-of-the-art performance across all tasks. We hope DriveMM as a promising solution for future end-to-end autonomous driving applications in the real world. Project page with code: https://github.com/zhijian11/DriveMM.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は,大規模言語モデルを組み込んだ自律運転(AD)において,例外的な理解と解釈能力を示した。
進歩にもかかわらず、現在のデータ駆動型ADアプローチは単一のデータセットと特定のタスクに集中する傾向にあり、全体的な機能と一般化能力を無視している。
これらのギャップを埋めるために,画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された,一般的な大規模マルチモーダルモデルであるDriveMMを提案する。
当初、モデルは、様々な視覚信号を処理し、基本的な視覚的理解と知覚のタスクを実行するために、カリキュラムを事前訓練する。
その後、様々なAD関連データセットを拡張してモデルを微調整し、自動運転のためのオールインワンLMMを実現する。
一般的な機能と一般化能力を評価するため、6つの公開ベンチマークで評価を行い、DriveMMが全タスクにわたって最先端のパフォーマンスを達成する未確認データセットでゼロショット転送を行う。
DriveMMは、将来的なエンドツーエンドの自動運転アプリケーションのための、将来的なソリューションとして期待しています。
コード付きプロジェクトページ:https://github.com/zhijian11/DriveMM。
関連論文リスト
- The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving [9.052643884249113]
マルチモーダル大言語モデル(MLLM)に基づくオープンソースのエンドツーエンドフレームワークであるOpenEMMAを提案する。
OpenEMMAは、Chain-of-Thought推論プロセスを導入することで、ベースラインよりも大幅に改善されている。
OpenEMMAは、様々な挑戦的な運転シナリオにおいて、有効性、一般化可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2024-12-19T18:59:40Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - EMMA: End-to-End Multimodal Model for Autonomous Driving [56.972452552944056]
本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。
EMMAはマルチモーダルな大規模言語モデル基盤に基づいて構築され、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
論文 参考訳(メタデータ) (2024-10-30T17:46:31Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。