Fugu-MT 論文翻訳(概要): DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

論文の概要: DriveMM: All-in-One Large Multimodal Model for Autonomous Driving

arxiv url: http://arxiv.org/abs/2412.07689v1
Date: Tue, 10 Dec 2024 17:27:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.450925
Title: DriveMM: All-in-One Large Multimodal Model for Autonomous Driving
Title（参考訳）: DriveMM:自動運転のためのオールインワン大規模マルチモーダルモデル
Authors: Zhijian Huang, Chengjian Feng, Feng Yan, Baihui Xiao, Zequn Jie, Yujie Zhong, Xiaodan Liang, Lin Ma,
Abstract要約: 大規模マルチモーダルモデル(LMM)は、自律運転(AD)における例外的理解と解釈能力を示した本稿では,多種多様なデータ入力を処理するための汎用大規模マルチモーダルモデルであるDriveMMを提案する。我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 63.882827922267666
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Multimodal Models (LMMs) have demonstrated exceptional comprehension and interpretation capabilities in Autonomous Driving (AD) by incorporating large language models. Despite the advancements, current data-driven AD approaches tend to concentrate on a single dataset and specific tasks, neglecting their overall capabilities and ability to generalize. To bridge these gaps, we propose DriveMM, a general large multimodal model designed to process diverse data inputs, such as images and multi-view videos, while performing a broad spectrum of AD tasks, including perception, prediction, and planning. Initially, the model undergoes curriculum pre-training to process varied visual signals and perform basic visual comprehension and perception tasks. Subsequently, we augment and standardize various AD-related datasets to fine-tune the model, resulting in an all-in-one LMM for autonomous driving. To assess the general capabilities and generalization ability, we conduct evaluations on six public benchmarks and undertake zero-shot transfer on an unseen dataset, where DriveMM achieves state-of-the-art performance across all tasks. We hope DriveMM as a promising solution for future end-toend autonomous driving applications in the real world.
Abstract（参考訳）: 大規模マルチモーダルモデル(LMM)は,大規模言語モデルを組み込んだ自律運転(AD)において,例外的な理解と解釈能力を示した。進歩にもかかわらず、現在のデータ駆動型ADアプローチは単一のデータセットと特定のタスクに集中する傾向にあり、全体的な機能と一般化能力を無視している。これらのギャップを埋めるために,画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された,一般的な大規模マルチモーダルモデルであるDriveMMを提案する。当初、モデルは、様々な視覚信号を処理し、基本的な視覚的理解と知覚のタスクを実行するために、カリキュラムを事前訓練する。その後、様々なAD関連データセットを拡張してモデルを微調整し、自動運転のためのオールインワンLMMを実現する。一般的な機能と一般化能力を評価するため、6つの公開ベンチマークで評価を行い、DriveMMが全タスクにわたって最先端のパフォーマンスを達成する未確認データセットでゼロショット転送を行う。 DriveMMは、将来的なエンドツーエンドの自動運転アプリケーションのための、将来的なソリューションとして期待しています。

関連論文リスト

LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving [9.447298958886265]
VLM(Vision-Language Models)は、エンドツーエンドの自動運転において大きな可能性を実証している。光EMMA(Lightweight End-to-End Multimodal Model for autonomous driving)を紹介する。様々なVLMを用いて12個の自律運転エージェントを構築し,その性能をnuScenes予測タスクで評価する。
論文参考訳（メタデータ） (2025-05-01T04:12:41Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving [9.052643884249113]
マルチモーダル大言語モデル(MLLM)に基づくオープンソースのエンドツーエンドフレームワークであるOpenEMMAを提案する。 OpenEMMAは、Chain-of-Thought推論プロセスを導入することで、ベースラインよりも大幅に改善されている。 OpenEMMAは、様々な挑戦的な運転シナリオにおいて、有効性、一般化可能性、堅牢性を示す。
論文参考訳（メタデータ） (2024-12-19T18:59:40Z)
GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control [122.65089441381741]
一般化可能なエゴビジョン・マルチモーダル世界モデルであるGEMについて述べる。参照フレーム、スパース機能、人間のポーズ、エゴ軌道を使って将来のフレームを予測する。私たちのデータセットは、自律運転、エゴセントリックな人間活動、ドローン飛行など、複数の領域にまたがる4000時間以上のマルチモーダルデータで構成されています。
論文参考訳（メタデータ） (2024-12-15T14:21:19Z)
EMMA: End-to-End Multimodal Model for Autonomous Driving [56.972452552944056]
本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。 EMMAはマルチモーダルな大規模言語モデル基盤に基づいて構築され、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
論文参考訳（メタデータ） (2024-10-30T17:46:31Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-03-14T17:58:33Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文参考訳（メタデータ） (2024-02-05T12:47:09Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
ADriver-I: A General World Model for Autonomous Driving [23.22507419707926]
視覚特徴と制御信号の形式を統一するインターリーブド・ビジョン・アクション・ペアの概念を導入する。 ADriver-I と呼ばれる自律運転のためのMLLMと拡散モデルに基づく一般世界モデルを構築した。視覚作用対を入力とし、現在のフレームの制御信号を自己回帰的に予測する。
論文参考訳（メタデータ） (2023-11-22T17:44:29Z)
CERBERUS: Simple and Effective All-In-One Automotive Perception Model with Multi Task Learning [4.622165486890318]
車両内組み込みコンピューティングプラットフォームは、個々のタスクに対して重いモデルを実行するのに必要な計算労力に対処できない。 CERBERUSは、マルチタスク学習アプローチを利用して、単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルである。
論文参考訳（メタデータ） (2022-10-03T08:17:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。