論文の概要: VideoMamba: Spatio-Temporal Selective State Space Model
- arxiv url: http://arxiv.org/abs/2407.08476v1
- Date: Thu, 11 Jul 2024 13:11:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:29:40.190543
- Title: VideoMamba: Spatio-Temporal Selective State Space Model
- Title(参考訳): VideoMamba:時空間選択空間モデル
- Authors: Jinyoung Park, Hee-Seon Kim, Kangwook Ko, Minbeom Kim, Changick Kim,
- Abstract要約: VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
- 参考スコア(独自算出の注目度): 18.310796559944347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VideoMamba, a novel adaptation of the pure Mamba architecture, specifically designed for video recognition. Unlike transformers that rely on self-attention mechanisms leading to high computational costs by quadratic complexity, VideoMamba leverages Mamba's linear complexity and selective SSM mechanism for more efficient processing. The proposed Spatio-Temporal Forward and Backward SSM allows the model to effectively capture the complex relationship between non-sequential spatial and sequential temporal information in video. Consequently, VideoMamba is not only resource-efficient but also effective in capturing long-range dependency in videos, demonstrated by competitive performance and outstanding efficiency on a variety of video understanding benchmarks. Our work highlights the potential of VideoMamba as a powerful tool for video understanding, offering a simple yet effective baseline for future research in video analysis.
- Abstract(参考訳): 本稿では,ビデオ認識に特化して設計された純粋マンバアーキテクチャの新たな適応であるVideoMambaを紹介する。
2次複雑さによる高い計算コストにつながる自己保持機構に依存する変換器とは異なり、VideoMambaはより効率的な処理のためにMambaの線形複雑性と選択的なSSM機構を利用する。
提案したspatio-Temporal Forward and Backward SSMにより、ビデオ内の非逐次空間情報とシーケンシャル時間情報の複雑な関係を効果的に捉えることができる。
その結果、VideoMambaは、リソース効率だけでなく、様々なビデオ理解ベンチマークにおいて、競争性能と卓越した効率によって実証された、ビデオの長距離依存性のキャプチャにも有効である。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
関連論文リスト
- H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving [26.536195829285855]
自律走行ビデオの複雑な動き変化に適合する新しい階層型マンバ適応(H-MBA)フレームワークを提案する。
C-Mambaには様々なタイプの構造状態空間モデルが含まれており、時間分解能の異なるマルチグラニュラリティビデオコンテキストを効果的にキャプチャすることができる。
Q-Mambaは、現在のフレームを学習可能なクエリとして柔軟に変換し、多粒度ビデオコンテキストをクエリに注意深く選択する。
論文 参考訳(メタデータ) (2025-01-08T06:26:16Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
現在のビデオモデルは、通常、重い画像エンコーダ(300M-1.1Bパラメータ)またはビデオエンコーダ(1B-1.4Bパラメータ)に依存している。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaSCI: Efficient Mamba-UNet for Quad-Bayer Patterned Video Snapshot Compressive Imaging [23.69262715870974]
既存のカラービデオSCI再構成アルゴリズムは、従来のベイアパターンに基づいて設計されている。
MambaSCIは計算コストとメモリコストの削減で最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-10-18T07:02:57Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - VideoMamba: State Space Model for Efficient Video Understanding [46.17083617091239]
VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-03-11T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。