論文の概要: Mamba-R: Vision Mamba ALSO Needs Registers
- arxiv url: http://arxiv.org/abs/2405.14858v1
- Date: Thu, 23 May 2024 17:58:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:17:34.798525
- Title: Mamba-R: Vision Mamba ALSO Needs Registers
- Title(参考訳): Mamba-R: Vision Mamba ALSOに登録が必要
- Authors: Feng Wang, Jiahao Wang, Sucheng Ren, Guoyizhe Wei, Jieru Mei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie,
- Abstract要約: ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応しており、Vision Mambaではより深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
- 参考スコア(独自算出の注目度): 45.41648622999754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Similar to Vision Transformers, this paper identifies artifacts also present within the feature maps of Vision Mamba. These artifacts, corresponding to high-norm tokens emerging in low-information background areas of images, appear much more severe in Vision Mamba -- they exist prevalently even with the tiny-sized model and activate extensively across background regions. To mitigate this issue, we follow the prior solution of introducing register tokens into Vision Mamba. To better cope with Mamba blocks' uni-directional inference paradigm, two key modifications are introduced: 1) evenly inserting registers throughout the input token sequence, and 2) recycling registers for final decision predictions. We term this new architecture Mamba-R. Qualitative observations suggest, compared to vanilla Vision Mamba, Mamba-R's feature maps appear cleaner and more focused on semantically meaningful regions. Quantitatively, Mamba-R attains stronger performance and scales better. For example, on the ImageNet benchmark, our base-size Mamba-R attains 82.9% accuracy, significantly outperforming Vim-B's 81.8%; furthermore, we provide the first successful scaling to the large model size (i.e., with 341M parameters), attaining a competitive accuracy of 83.2% (84.5% if finetuned with 384x384 inputs). Additional validation on the downstream semantic segmentation task also supports Mamba-R's efficacy.
- Abstract(参考訳): ビジョントランスフォーマーと同様に、視覚マンバの特徴マップにも存在しているアーティファクトを識別する。
これらのアーティファクトは、画像の低情報背景領域に出現するハイノームトークンに対応するもので、Vision Mambaでははるかに深刻に見えます。
この問題を緩和するために、私たちはVision Mambaにレジスタトークンを導入するという以前のソリューションに従います。
Mambaブロックの一方向推論パラダイムに対処するために、2つの重要な修正が導入されている。
1)入力トークンシーケンス全体を通じてレジスタを均等に挿入し、
2)最終決定予測のためのリサイクルレジスタ。
この新しいアーキテクチャをMamba-Rと呼ぶ。
質的な観察は、バニラ・ヴィジュアル・マンバと比較して、マンバ-Rの特徴地図はよりきれいで意味のある領域に焦点を当てていることを示唆している。
定量的には、Mamba-Rはパフォーマンスが向上し、スケールが向上する。
例えば、ImageNetベンチマークでは、我々のベースサイズのMamba-Rは82.9%の精度で、Vim-Bの81.8%を大きく上回り、さらに大きなモデルサイズ(341万のパラメータを含む)へのスケーリングを初めて成功させ、競争精度は83.2%(384x384入力で微調整された場合84.5%)に達した。
下流セマンティックセグメンテーションタスクに関するさらなる検証も、Mamba-Rの有効性をサポートしている。
関連論文リスト
- Mamba meets crack segmentation [0.18416014644193066]
亀裂はインフラに安全リスクをもたらし、見落としられない。
CNNはグローバルなモデリング能力に欠けており、ひび割れの特徴全体の表現を妨げる。
本研究では,マンバの特徴を分解する表現能力について検討する。
論文 参考訳(メタデータ) (2024-07-22T15:21:35Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。