論文の概要: VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining
- arxiv url: http://arxiv.org/abs/2503.12332v1
- Date: Sun, 16 Mar 2025 03:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:14.148391
- Title: VideoMAP: Toward Scalable Mamba-based Video Autoregressive Pretraining
- Title(参考訳): VideoMAP: スケーラブルなマンバ型ビデオ自動回帰事前学習を目指して
- Authors: Yunze Liu, Peiran Wu, Cheng Liang, Junxiao Shen, Limin Wang, Li Yi,
- Abstract要約: VideoMAPは、新しい事前トレーニングアプローチを備えたHybrid Mamba-Transformerフレームワークである。
また,ビデオMAPはサンプル効率が優れており,トレーニングデータの少ない既存手法よりも優れていた。
また,マルチモーダルな大言語モデルのためのビジュアルエンコーダとしての VideoMAP の可能性を示す。
- 参考スコア(独自算出の注目度): 31.44538839153902
- License:
- Abstract: Recent Mamba-based architectures for video understanding demonstrate promising computational efficiency and competitive performance, yet struggle with overfitting issues that hinder their scalability. To overcome this challenge, we introduce VideoMAP, a Hybrid Mamba-Transformer framework featuring a novel pre-training approach. VideoMAP uses a 4:1 Mamba-to-Transformer ratio, effectively balancing computational cost and model capacity. This architecture, combined with our proposed frame-wise masked autoregressive pre-training strategy, delivers significant performance gains when scaling to larger models. Additionally, VideoMAP exhibits impressive sample efficiency, significantly outperforming existing methods with less training data. Experiments show that VideoMAP outperforms existing models across various datasets, including Kinetics-400, Something-Something V2, Breakfast, and COIN. Furthermore, we demonstrate the potential of VideoMAP as a visual encoder for multimodal large language models, highlighting its ability to reduce memory usage and enable the processing of longer video sequences. The code is open-source at https://github.com/yunzeliu/MAP
- Abstract(参考訳): ビデオ理解のための近年のMambaベースのアーキテクチャは、計算効率と競争性能の有望さを示しているが、スケーラビリティを妨げる問題に過度に適合している。
この課題を克服するために,新しい事前学習アプローチを備えたハイブリッド・マンバ・トランスフォーマー・フレームワークであるVideoMAPを紹介した。
VideoMAPは4:1のMamba-to-Transformer比を使用し、計算コストとモデル容量を効果的にバランスさせる。
このアーキテクチャは,提案したフレーム単位のマスク付き自己回帰事前学習戦略と組み合わせて,大規模モデルへのスケーリングにおいて,大幅なパフォーマンス向上を実現する。
さらに、VideoMAPは見事なサンプル効率を示し、トレーニングデータの少ない既存の方法よりも大幅に優れています。
実験によると、VideoMAPは、Kinetics-400、Something V2、Breakfast、COINなど、さまざまなデータセットで既存のモデルを上回っている。
さらに,マルチモーダルな大言語モデルのためのビジュアルエンコーダとしての VideoMAP の可能性を示し,メモリ使用量を削減し,より長いビデオシーケンスの処理を可能にする能力を強調した。
コードはhttps://github.com/yunzeliu/MAPで公開されている。
関連論文リスト
- Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - VideoMamba: Spatio-Temporal Selective State Space Model [18.310796559944347]
VideoMambaは、ビデオ認識用に特別に設計された純粋なMambaアーキテクチャの斬新な適応である。
VideoMambaは、リソース効率だけでなく、ビデオの長距離依存性のキャプチャにも有効だ。
我々の研究は、ビデオ理解のための強力なツールとしてのVideoMambaの可能性を強調し、ビデオ分析における将来の研究のための、シンプルだが効果的なベースラインを提供する。
論文 参考訳(メタデータ) (2024-07-11T13:11:21Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - VideoMamba: State Space Model for Efficient Video Understanding [46.17083617091239]
VideoMambaは既存の3D畳み込みニューラルネットワークとビデオトランスフォーマーの限界を克服する。
線形複雑度演算子は、効率的な長期モデリングを可能にする。
VideoMambaはビデオ理解のための新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-03-11T17:59:34Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。