論文の概要: VideoMambaPro: A Leap Forward for Mamba in Video Understanding
- arxiv url: http://arxiv.org/abs/2406.19006v3
- Date: Mon, 9 Sep 2024 20:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:42:18.562765
- Title: VideoMambaPro: A Leap Forward for Mamba in Video Understanding
- Title(参考訳): VideoMambaPro:ビデオ理解におけるMambaの推進力
- Authors: Hui Lu, Albert Ali Salah, Ronald Poppe,
- Abstract要約: ビデオ理解には豊かな時間的表現の抽出が必要であり、トランスフォーマーモデルは自己認識によって達成される。
NLPでは、Mambaはトランスモデルの効率的な代替品として浮上している。
VideoMambaProは、トランスフォーマーモデルと比較して最先端のビデオアクション認識性能を示している。
- 参考スコア(独自算出の注目度): 10.954210339694841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, self-attention poses a computational burden. In NLP, Mamba has surfaced as an efficient alternative for transformers. However, Mamba's successes do not trivially extend to computer vision tasks, including those in video analysis. In this paper, we theoretically analyze the differences between self-attention and Mamba. We identify two limitations in Mamba's token processing: historical decay and element contradiction. We propose VideoMambaPro (VMP) that solves the identified limitations by adding masked backward computation and elemental residual connections to a VideoMamba backbone. VideoMambaPro shows state-of-the-art video action recognition performance compared to transformer models, and surpasses VideoMamba by clear margins: 7.9% and 8.1% top-1 on Kinetics-400 and Something-Something V2, respectively. Our VideoMambaPro-M model achieves 91.9% top-1 on Kinetics-400, only 0.2% below InternVideo2-6B but with only 1.2% of its parameters. The combination of high performance and efficiency makes VideoMambaPro an interesting alternative for transformer models.
- Abstract(参考訳): ビデオ理解には、トランスフォーマーモデルが自己注意を通じて達成する豊かな時空間表現の抽出が必要である。
残念ながら、自己注意は計算上の負担をもたらす。
NLPでは、Mambaは変換器の効率的な代替品として浮上している。
しかし、マンバの成功は、ビデオ分析を含むコンピュータビジョンのタスクにさほど及ばない。
本稿では,自尊心とマンバの差異を理論的に分析する。
マンバのトークン処理には、歴史的崩壊と元素矛盾という2つの制限がある。
我々は,ビデオマンバのバックボーンにマスク付き後方計算と要素残差接続を追加することで,特定された制限を解消するVideoMambaPro(VMP)を提案する。
VideoMambaProは、トランスフォーマーモデルと比較して最先端のビデオアクション認識性能を示し、Kinetics-400とSomething V2でそれぞれ7.9%と8.1%という明確なマージンでVideoMambaを上回っている。
私たちのVideoMambaPro-Mモデルは、InternVideo2-6Bよりわずか0.2%低いが、パラメータの1.2%しか持たないKinetics-400で91.9%のトップ-1を達成した。
高性能と効率性の組み合わせにより、VideoMambaProはトランスフォーマーモデルの興味深い代替品となる。
関連論文リスト
- MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Speech Slytherin: Examining the Performance and Efficiency of Mamba for Speech Separation, Recognition, and Synthesis [18.68317727349427]
Mambaがトランスフォーマーのより良い代替品だと結論付けるには早すぎる。
我々は,3つのタスクに対して,Mamba-TasNet,ConMamba,VALL-Mの3つのモデルを評価する。
論文 参考訳(メタデータ) (2024-07-13T00:35:21Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z) - MoE-Mamba: Efficient Selective State Space Models with Mixture of
Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。
MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。
スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文 参考訳(メタデータ) (2024-01-08T18:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。