論文の概要: MambaVision: A Hybrid Mamba-Transformer Vision Backbone
- arxiv url: http://arxiv.org/abs/2407.08083v1
- Date: Wed, 10 Jul 2024 23:02:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:19:34.319830
- Title: MambaVision: A Hybrid Mamba-Transformer Vision Backbone
- Title(参考訳): MambaVision:ハイブリッドのMamba-Transformer Visionバックボーン
- Authors: Ali Hatamizadeh, Jan Kautz,
- Abstract要約: 本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
- 参考スコア(独自算出の注目度): 54.965143338206644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel hybrid Mamba-Transformer backbone, denoted as MambaVision, which is specifically tailored for vision applications. Our core contribution includes redesigning the Mamba formulation to enhance its capability for efficient modeling of visual features. In addition, we conduct a comprehensive ablation study on the feasibility of integrating Vision Transformers (ViT) with Mamba. Our results demonstrate that equipping the Mamba architecture with several self-attention blocks at the final layers greatly improves the modeling capacity to capture long-range spatial dependencies. Based on our findings, we introduce a family of MambaVision models with a hierarchical architecture to meet various design criteria. For Image classification on ImageNet-1K dataset, MambaVision model variants achieve a new State-of-the-Art (SOTA) performance in terms of Top-1 accuracy and image throughput. In downstream tasks such as object detection, instance segmentation and semantic segmentation on MS COCO and ADE20K datasets, MambaVision outperforms comparably-sized backbones and demonstrates more favorable performance. Code: https://github.com/NVlabs/MambaVision.
- Abstract(参考訳): 本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
さらに,視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行った。
以上の結果から,Mambaアーキテクチャを複数の自己注意ブロックを最終層に装備することで,長距離空間依存性を捕捉するモデリング能力を大幅に向上することが示された。
そこで本研究では,設計基準を満たす階層構造を持つMambaVisionモデルのファミリを紹介した。
ImageNet-1Kデータセット上の画像分類のために、MambaVisionモデル変種は、Top-1精度と画像スループットの点で、新しいステート・オブ・ザ・アート(SOTA)性能を達成する。
オブジェクト検出、インスタンスセグメンテーション、MS COCOとADE20Kデータセットのセマンティックセグメンテーションなどの下流タスクでは、MambaVisionは比較可能なサイズのバックボーンよりも優れており、より好ましいパフォーマンスを示している。
コード:https://github.com/NVlabs/MambaVision.com
関連論文リスト
- MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T17:05:08Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Vision Mamba for Classification of Breast Ultrasound Images [9.90112908284836]
MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。
本稿では,乳房超音波BUSIデータセットと乳房超音波Bデータセットを用いて,マンバモデルと従来の畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を比較した。
論文 参考訳(メタデータ) (2024-07-04T00:21:47Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - MambaOut: Do We Really Need Mamba for Vision? [70.60495392198686]
状態空間モデル(SSM)のRNNライクなトークンミキサーを備えたアーキテクチャであるMambaが最近導入され、注意機構の2次複雑さに対処した。
本論文は,マンバが長周期および自己回帰特性を有するタスクに理想的に適していることを概念的に結論づける。
我々は,コアトークンミキサーであるSSMを除去しながら,Mambaブロックを積み重ねることで,MambaOutという名前の一連のモデルを構築する。
論文 参考訳(メタデータ) (2024-05-13T17:59:56Z) - CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。
Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文 参考訳(メタデータ) (2024-04-30T09:40:07Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - A Survey on Visual Mamba [16.873917203618365]
選択機構とハードウェア対応アーキテクチャを備えた状態空間モデル(SSM)、すなわちMambaは、最近、長いシーケンスモデリングにおいて大きな可能性を証明している。
トランスにおける自己注意機構は、画像サイズと計算要求の増加と2次複雑さを持つため、研究者らは現在、コンピュータビジョンタスクにMambaを適用する方法を模索している。
本稿では,コンピュータビジョン分野におけるMambaモデルの詳細分析を目的とした,初めての総合的な調査である。
論文 参考訳(メタデータ) (2024-04-24T16:23:34Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。