論文の概要: Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models
- arxiv url: http://arxiv.org/abs/2401.00988v1
- Date: Tue, 2 Jan 2024 01:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 14:59:13.677450
- Title: Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models
- Title(参考訳): バードアイビューインジェクションマルチモーダル大型モデルによる総合的自律運転理解
- Authors: Xinpeng Ding and Jinahua Han and Hang Xu and Xiaodan Liang and Wei
Zhang and Xiaomeng Li
- Abstract要約: 我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
- 参考スコア(独自算出の注目度): 76.99140362751787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of multimodal large language models (MLLMs) has spurred interest in
language-based driving tasks. However, existing research typically focuses on
limited tasks and often omits key multi-view and temporal information which is
crucial for robust autonomous driving. To bridge these gaps, we introduce
NuInstruct, a novel dataset with 91K multi-view video-QA pairs across 17
subtasks, where each task demands holistic information (e.g., temporal,
multi-view, and spatial), significantly elevating the challenge level. To
obtain NuInstruct, we propose a novel SQL-based method to generate
instruction-response pairs automatically, which is inspired by the driving
logical progression of humans. We further present BEV-InMLLM, an end-to-end
method for efficiently deriving instruction-aware Bird's-Eye-View (BEV)
features, language-aligned for large language models. BEV-InMLLM integrates
multi-view, spatial awareness, and temporal semantics to enhance MLLMs'
capabilities on NuInstruct tasks. Moreover, our proposed BEV injection module
is a plug-and-play method for existing MLLMs. Our experiments on NuInstruct
demonstrate that BEV-InMLLM significantly outperforms existing MLLMs, e.g.
around 9% improvement on various tasks. We plan to release our NuInstruct for
future research development.
- Abstract(参考訳): MLLM(Multimodal large language model)の台頭は、言語ベースの運転タスクへの関心を喚起している。
しかし、既存の研究は通常、限られたタスクに重点を置いており、堅牢な自動運転に不可欠な、重要なマルチビューと時間的情報を省略することが多い。
これらのギャップを埋めるために,NuInstructを導入する。これは17のサブタスクに91Kのマルチビュービデオ-QAペアを持つ新しいデータセットで,各タスクが全体的情報(時間的,マルチビュー,空間的など)を要求する。
そこで本研究では,人間の論理進行に触発された命令応答ペアを自動生成する新しいsqlベース手法を提案する。
さらに,BEV-InMLLMは命令認識のBird's-Eye-View(BEV)機能を効率よく導き出すためのエンドツーエンド手法である。
BEV-InMLLMは、NuInstructタスクにおけるMLLMの機能を高めるために、多視点、空間認識、時間意味学を統合している。
さらに,提案するBEVインジェクションモジュールは既存のMLLMのプラグアンドプレイ方式である。
我々のNuInstruct実験は、BEV-InMLLMが既存のMLLMを著しく上回り、例えば、様々なタスクにおいて約9%改善されていることを示す。
今後の研究開発のためのNuInstructをリリースする予定です。
関連論文リスト
- MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [64.83647588128146]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - MLLM-Bench, Evaluating Multi-modal LLMs using GPT-4V [44.0908994116986]
視覚言語モデル(MLLM)は、人間の脳のマルチモーダル能力に合わせて、AIアプリケーションを拡張した。
MLLMの有効性を評価することは、不十分な回答を欠くタスクの主観的な性質のために大きな課題となる。
MLLM-Benchは、Vicunaにインスパイアされた革新的なベンチマークで、さまざまなシナリオにまたがる。
論文 参考訳(メタデータ) (2023-11-23T12:04:25Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - A Survey on Multimodal Large Language Models [56.754753799607585]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために、脳として強力な大規模言語モデルを使用する。
MLLMの驚くべき創発的能力、例えば画像に基づくストーリーの作成やOCRのない数学推論は、伝統的な手法ではまれである。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。