論文の概要: H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2501.04302v1
- Date: Wed, 08 Jan 2025 06:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:46.265895
- Title: H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving
- Title(参考訳): H-MBA: 自律運転におけるマルチモーダルビデオ理解のための階層型MamBa適応
- Authors: Siran Chen, Yuxiao Luo, Yue Ma, Yu Qiao, Yali Wang,
- Abstract要約: 自律走行ビデオの複雑な動き変化に適合する新しい階層型マンバ適応(H-MBA)フレームワークを提案する。
C-Mambaには様々なタイプの構造状態空間モデルが含まれており、時間分解能の異なるマルチグラニュラリティビデオコンテキストを効果的にキャプチャすることができる。
Q-Mambaは、現在のフレームを学習可能なクエリとして柔軟に変換し、多粒度ビデオコンテキストをクエリに注意深く選択する。
- 参考スコア(独自算出の注目度): 26.536195829285855
- License:
- Abstract: With the prevalence of Multimodal Large Language Models(MLLMs), autonomous driving has encountered new opportunities and challenges. In particular, multi-modal video understanding is critical to interactively analyze what will happen in the procedure of autonomous driving. However, videos in such a dynamical scene that often contains complex spatial-temporal movements, which restricts the generalization capacity of the existing MLLMs in this field. To bridge the gap, we propose a novel Hierarchical Mamba Adaptation (H-MBA) framework to fit the complicated motion changes in autonomous driving videos. Specifically, our H-MBA consists of two distinct modules, including Context Mamba (C-Mamba) and Query Mamba (Q-Mamba). First, C-Mamba contains various types of structure state space models, which can effectively capture multi-granularity video context for different temporal resolutions. Second, Q-Mamba flexibly transforms the current frame as the learnable query, and attentively selects multi-granularity video context into query. Consequently, it can adaptively integrate all the video contexts of multi-scale temporal resolutions to enhance video understanding. Via a plug-and-play paradigm in MLLMs, our H-MBA shows the remarkable performance on multi-modal video tasks in autonomous driving, e.g., for risk object detection, it outperforms the previous SOTA method with 5.5% mIoU improvement.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の普及に伴い、自動運転は新たな機会と課題に直面している。
特に、マルチモーダルビデオ理解は、自動運転の手順で何が起こるかを対話的に分析するために重要である。
しかし、複雑な時空間運動を多く含むダイナミックなシーンの映像は、この分野における既存のMLLMの一般化能力を制限する。
このギャップを埋めるために,自律走行ビデオの複雑な動き変化に適合する新しい階層型マンバ適応(H-MBA)フレームワークを提案する。
具体的には、私たちのH-MBAはContext Mamba(C-Mamba)とQuery Mamba(Q-Mamba)の2つの異なるモジュールで構成されています。
まず、C-Mambaには様々な構造状態空間モデルが含まれており、時間分解能の異なるマルチグラニュラリティビデオコンテキストを効果的にキャプチャすることができる。
第2に、Q-Mambaは学習可能なクエリとして現在のフレームを柔軟に変換し、マルチグラニュラリティビデオコンテキストをクエリに注意深く選択する。
これにより、マルチスケールの時間分解能のすべてのビデオコンテキストを適応的に統合し、ビデオ理解を強化することができる。
H-MBAはMLLMのプラグ・アンド・プレイのパラダイムとして,自律走行におけるマルチモーダルなビデオタスク,例えばリスクオブジェクトの検出において,従来のSOTA法よりも5.5%mIoUで優れていた。
関連論文リスト
- UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving [18.189392365510848]
UniMLVGは、正確に制御された拡張ストリートマルチパースペクティブビデオを生成するために設計された統合フレームワークである。
トレーニングデータにシングルビューとマルチビューのドライビングビデオを統合することで、我々のアプローチは3段階にわたってクロスフレームとクロスビューのモジュールを更新する。
我々のフレームワークは、FIDが21.4%、FVDが36.5%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T08:27:53Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文 参考訳(メタデータ) (2024-07-11T13:11:21Z) - VideoMamba: State Space Model for Efficient Video Understanding [46.17083617091239]
VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-03-11T17:59:34Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。