論文の概要: Demystify Mamba in Vision: A Linear Attention Perspective
- arxiv url: http://arxiv.org/abs/2405.16605v1
- Date: Sun, 26 May 2024 15:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:09:48.195325
- Title: Demystify Mamba in Vision: A Linear Attention Perspective
- Title(参考訳): Demystify Mamba in Vision: 線形注意視点
- Authors: Dongchen Han, Ziyi Wang, Zhuofan Xia, Yizeng Han, Yifan Pu, Chunjiang Ge, Jun Song, Shiji Song, Bo Zheng, Gao Huang,
- Abstract要約: Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
- 参考スコア(独自算出の注目度): 72.93213667713493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba is an effective state space model with linear computation complexity. It has recently shown impressive efficiency in dealing with high-resolution inputs across various vision tasks. In this paper, we reveal that the powerful Mamba model shares surprising similarities with linear attention Transformer, which typically underperform conventional Transformer in practice. By exploring the similarities and disparities between the effective Mamba and subpar linear attention Transformer, we provide comprehensive analyses to demystify the key factors behind Mamba's success. Specifically, we reformulate the selective state space model and linear attention within a unified formulation, rephrasing Mamba as a variant of linear attention Transformer with six major distinctions: input gate, forget gate, shortcut, no attention normalization, single-head, and modified block design. For each design, we meticulously analyze its pros and cons, and empirically evaluate its impact on model performance in vision tasks. Interestingly, the results highlight the forget gate and block design as the core contributors to Mamba's success, while the other four designs are less crucial. Based on these findings, we propose a Mamba-Like Linear Attention (MLLA) model by incorporating the merits of these two key designs into linear attention. The resulting model outperforms various vision Mamba models in both image classification and high-resolution dense prediction tasks, while enjoying parallelizable computation and fast inference speed. Code is available at https://github.com/LeapLabTHU/MLLA.
- Abstract(参考訳): Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
最近、様々な視覚タスクにわたる高精細な入力を扱う際に、驚くほどの効率性を示した。
本稿では,従来の変圧器を性能的に劣る線形アテンション変換器と,強力なマンバモデルが驚くほど類似していることを明らかにする。
有効マンバとサブパーリニアアテンショントランスフォーマーの類似点と相違点を探索することにより,マンバの成功の鍵となる要因を解明するための総合的な分析を行う。
具体的には、入力ゲート、忘れゲート、ショートカット、アテンション正規化なし、シングルヘッド、修正ブロック設計の6つの主要な特徴を持つ線形アテンショントランスフォーマーの変種としてマンバを表現し、統一された定式化内での選択状態空間モデルと線形アテンションを再構成する。
それぞれの設計について,その長所と短所を慎重に分析し,視覚タスクにおけるモデル性能への影響を実証的に評価する。
興味深いことに、結果はマンバの成功に寄与する中核的な要因として、忘れ門とブロックの設計を強調しているが、他の4つのデザインは重要ではない。
これらの知見に基づいて,これらの2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
得られたモデルは、並列化可能な計算と高速推論速度を楽しみながら、画像分類と高解像度密度予測タスクの両方において様々な視覚的マンバモデルより優れている。
コードはhttps://github.com/LeapLabTHU/MLLAで公開されている。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - KMM: Key Frame Mask Mamba for Extended Motion Generation [21.144913854895243]
キーフレーム・マスキング・モデリング(Key frame Masking Modeling)は、キーフレーム・マスキング・モデリング(Key frame Masking Modeling)を特徴とする新しいアーキテクチャである。
我々は,従来の最先端手法と比較して,FIDが57%以上,パラメータが70%以上減少し,最先端性能を達成するため,go-toデータセットであるBABELの広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T14:41:38Z) - MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:05:08Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Snakes and Ladders: Two Steps Up for VideoMamba [10.954210339694841]
本稿では,自尊心とマンバの差異を理論的に分析する。
本稿では, VideoMamba を1.6-2.8%, 1.1-1.9% で上回る VideoMambaPro モデルを提案する。
我々の2つの解決策は、Vision Mambaモデルの最近の進歩であり、将来のモデルにさらなる改善をもたらす可能性が高い。
論文 参考訳(メタデータ) (2024-06-27T08:45:31Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。