論文の概要: OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.15208v1
- Date: Thu, 19 Dec 2024 18:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:21.558037
- Title: OpenEMMA: Open-Source Multimodal Model for End-to-End Autonomous Driving
- Title(参考訳): OpenEMMA: エンドツーエンド自動運転のためのオープンソースのマルチモーダルモデル
- Authors: Shuo Xing, Chengyuan Qian, Yuping Wang, Hongyuan Hua, Kexin Tian, Yang Zhou, Zhengzhong Tu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)に基づくオープンソースのエンドツーエンドフレームワークであるOpenEMMAを提案する。
OpenEMMAは、Chain-of-Thought推論プロセスを導入することで、ベースラインよりも大幅に改善されている。
OpenEMMAは、様々な挑戦的な運転シナリオにおいて、有効性、一般化可能性、堅牢性を示す。
- 参考スコア(独自算出の注目度): 9.052643884249113
- License:
- Abstract: Since the advent of Multimodal Large Language Models (MLLMs), they have made a significant impact across a wide range of real-world applications, particularly in Autonomous Driving (AD). Their ability to process complex visual data and reason about intricate driving scenarios has paved the way for a new paradigm in end-to-end AD systems. However, the progress of developing end-to-end models for AD has been slow, as existing fine-tuning methods demand substantial resources, including extensive computational power, large-scale datasets, and significant funding. Drawing inspiration from recent advancements in inference computing, we propose OpenEMMA, an open-source end-to-end framework based on MLLMs. By incorporating the Chain-of-Thought reasoning process, OpenEMMA achieves significant improvements compared to the baseline when leveraging a diverse range of MLLMs. Furthermore, OpenEMMA demonstrates effectiveness, generalizability, and robustness across a variety of challenging driving scenarios, offering a more efficient and effective approach to autonomous driving. We release all the codes in https://github.com/taco-group/OpenEMMA.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の登場以来、それらは特に自律運転(AD)において、幅広い現実世界のアプリケーションに多大な影響を与えてきた。
複雑な視覚データを処理し、複雑な運転シナリオを推論する能力は、エンド・ツー・エンドのADシステムにおける新しいパラダイムの道を開いた。
しかし、ADのエンド・ツー・エンド・モデルの開発は遅れており、既存の微調整手法では膨大な計算能力、大規模データセット、多額の資金が要求される。
近年の推論コンピューティングの進歩からインスピレーションを得て,MLLMをベースとしたオープンソースのエンドツーエンドフレームワークであるOpenEMMAを提案する。
OpenEMMAは、Chain-of-Thought推論プロセスを導入することで、多様なMLLMを利用する場合のベースラインに比べて大幅な改善を実現している。
さらに、OpenEMMAは、さまざまな挑戦的な運転シナリオにおける有効性、一般化可能性、堅牢性を示し、自律運転に対するより効率的で効果的なアプローチを提供する。
私たちはすべてのコードをhttps://github.com/taco-group/OpenEMMAでリリースします。
関連論文リスト
- Application of Multimodal Large Language Models in Autonomous Driving [1.8181868280594944]
マルチモーダル大言語モデルの実装について詳細な研究を行う。
自律運転におけるMLLMの性能の低下に対処する。
次に、シーン理解、予測、意思決定によってAD意思決定プロセスを分解する。
論文 参考訳(メタデータ) (2024-12-21T00:09:52Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision [9.03028904066824]
本稿では,マルチモーダルなオープンセット・ドメイン・ジェネリゼーションを実現するための新しいアプローチを提案する。
本稿では,マルチモーダルな自己教師型プリテキストタスクであるMasked Cross-modal TranslationとMultimodal Jigsaw Puzzlesを提案する。
我々は、特に対象ドメインからのラベルなしデータが利用可能なシナリオにおいて、マルチモーダルなオープンセットドメイン適応問題にも取り組みます。
論文 参考訳(メタデータ) (2024-07-01T17:59:09Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - A Survey on Multimodal Large Language Models for Autonomous Driving [31.614730391949657]
大規模なモデルから恩恵を受けるマルチモーダルAIシステムは、現実世界を均等に知覚し、意思決定し、ツールを人間として制御する可能性がある。
その大きな可能性にもかかわらず、マルチモーダルな大規模言語モデル駆動システムに適用するための重要な課題、機会、将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-11-21T03:32:01Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。