論文の概要: MambaOut: Do We Really Need Mamba for Vision?
- arxiv url: http://arxiv.org/abs/2405.07992v1
- Date: Mon, 13 May 2024 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 12:46:36.225078
- Title: MambaOut: Do We Really Need Mamba for Vision?
- Title(参考訳): MambaOut: ビジョンにMambaは本当に必要か?
- Authors: Weihao Yu, Xinchao Wang,
- Abstract要約: 状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねてemphMambaOutという一連のモデルを構築した。
- 参考スコア(独自算出の注目度): 70.60495392198686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba, an architecture with RNN-like token mixer of state space model (SSM), was recently introduced to address the quadratic complexity of the attention mechanism and subsequently applied to vision tasks. Nevertheless, the performance of Mamba for vision is often underwhelming when compared with convolutional and attention-based models. In this paper, we delve into the essence of Mamba, and conceptually conclude that Mamba is ideally suited for tasks with long-sequence and autoregressive characteristics. For vision tasks, as image classification does not align with either characteristic, we hypothesize that Mamba is not necessary for this task; Detection and segmentation tasks are also not autoregressive, yet they adhere to the long-sequence characteristic, so we believe it is still worthwhile to explore Mamba's potential for these tasks. To empirically verify our hypotheses, we construct a series of models named \emph{MambaOut} through stacking Mamba blocks while removing their core token mixer, SSM. Experimental results strongly support our hypotheses. Specifically, our MambaOut model surpasses all visual Mamba models on ImageNet image classification, indicating that Mamba is indeed unnecessary for this task. As for detection and segmentation, MambaOut cannot match the performance of state-of-the-art visual Mamba models, demonstrating the potential of Mamba for long-sequence visual tasks. The code is available at https://github.com/yuweihao/MambaOut
- Abstract(参考訳): 状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処し、視覚タスクに適用された。
それでも、視覚に対するMambaのパフォーマンスは、畳み込みモデルや注目ベースのモデルと比較すると、しばしば過大評価される。
本稿では,マンバの本質を探求し,マンバが長期的・自己回帰的特徴を有するタスクに理想的に適していると結論づける。
視覚タスクの場合、画像分類はどちらの特徴とも一致しないため、このタスクにはマンバは必要ない、という仮説を立てる。
仮説を実証的に検証するために,Mambaブロックを積み重ねてコアトークンミキサーSSMを取り除き,\emph{MambaOut} という一連のモデルを構築した。
実験結果は仮説を強く支持する。
具体的には、イメージネット画像分類において、我々のMambaOutモデルはすべての視覚的Mambaモデルを上回っており、このタスクにはMambaが本当に不要であることを示している。
検出とセグメンテーションに関しては、MambaOutは最先端のビジュアルMambaモデルの性能と一致せず、長時間の視覚タスクに対するMambaの可能性を示す。
コードはhttps://github.com/yuweihao/MambaOutで入手できる。
関連論文リスト
- Can Mamba Always Enjoy the "Free Lunch"? [9.024844892536327]
トランスフォーマーは、現在のLarge Language Models (LLM) の基盤となっている。
マンバは推論中の一定レベルのサイズのために徐々に注目を集めている。
この結果から,任意のDP問題を解くために,Mambaの総コストは標準かつ効率的な変換器に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-10-04T13:31:24Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Mamba-R: Vision Mamba ALSO Needs Registers [45.41648622999754]
ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
論文 参考訳(メタデータ) (2024-05-23T17:58:43Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding [49.88140766026886]
状態空間モデルMambaは、長周期モデリングからビデオモデリングへの成功を拡大する有望な特性を示している。
我々は、マンバがビデオのモデリングにおいて様々な役割を担い、マンバが優位性を示す様々なタスクを調査しながら、包括的な研究を行う。
実験の結果,ビデオ専用タスクとビデオ言語タスクの両方において,Mambaの強い可能性を示すとともに,有望な効率と性能のトレードオフを示すことができた。
論文 参考訳(メタデータ) (2024-03-14T17:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。