論文の概要: MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
- arxiv url: http://arxiv.org/abs/2410.00871v1
- Date: Tue, 01 Oct 2024 17:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:25:11.528356
- Title: MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
- Title(参考訳): MAP: Masked Autoregressive Pretraining を用いたハイブリッド・マンバ・トランスフォーマー・ビジョンバックボーンの可能性
- Authors: Yunze Liu, Li Yi,
- Abstract要約: 本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.37555991996508
- License:
- Abstract: Mamba has achieved significant advantages in long-context modeling and autoregressive tasks, but its scalability with large parameters remains a major limitation in vision applications. pretraining is a widely used strategy to enhance backbone model performance. Although the success of Masked Autoencoder in Transformer pretraining is well recognized, it does not significantly improve Mamba's visual learning performance. We found that using the correct autoregressive pretraining can significantly boost the performance of the Mamba architecture. Based on this analysis, we propose Masked Autoregressive Pretraining (MAP) to pretrain a hybrid Mamba-Transformer vision backbone network. This strategy combines the strengths of both MAE and Autoregressive pretraining, improving the performance of Mamba and Transformer modules within a unified paradigm. Additionally, in terms of integrating Mamba and Transformer modules, we empirically found that inserting Transformer layers at regular intervals within Mamba layers can significantly enhance downstream task performance. Experimental results show that both the pure Mamba architecture and the hybrid Mamba-Transformer vision backbone network pretrained with MAP significantly outperform other pretraining strategies, achieving state-of-the-art performance. We validate the effectiveness of the method on both 2D and 3D datasets and provide detailed ablation studies to support the design choices for each component.
- Abstract(参考訳): Mambaは、長期コンテキストモデリングと自動回帰タスクにおいて、大きなアドバンテージを達成してきたが、大きなパラメータを持つスケーラビリティは、ビジョンアプリケーションにおいて依然として大きな制限となっている。
プレトレーニングは バックボーンモデルの性能を高めるために 広く使われている戦略です
トランスフォーマー事前学習におけるMasked Autoencoderの成功はよく認識されているが、Mambaの視覚学習性能はそれほど良くない。
適切な自己回帰事前学習を用いることで,Mambaアーキテクチャの性能を大幅に向上させることができることがわかった。
そこで本研究では,Masked Autoregressive Pretraining (MAP) を用いて,ハイブリッド型Mamba-Transformer視覚バックボーンネットワークの事前学習を行う。
この戦略は、MAEとAutoregressive Pretrainingの両方の長所を組み合わせることで、統一パラダイム内でのMambaおよびTransformerモジュールのパフォーマンスを向上させる。
さらに、MambaとTransformerモジュールの統合という観点からは、TransformerレイヤをMambaレイヤ内で一定間隔で挿入することで、ダウンストリームタスクのパフォーマンスが大幅に向上することを示した。
実験結果から,MAPで事前学習した純マンバアーキテクチャとハイブリッドマンバ・トランスフォーマー・ビジョン・バックボーンネットワークが,他の事前学習戦略よりも優れ,最先端の性能を実現していることがわかった。
提案手法の有効性を2次元および3次元のデータセットで検証し,各コンポーネントの設計選択を支援するための詳細なアブレーション研究を行う。
関連論文リスト
- An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーポリシーに代わる計算効率の良い代替手段を提供する、新しい模倣学習アーキテクチャである。
Mambaは、Transformersに対するSSMやライバルのパフォーマンスを大幅に改善し、ILポリシーの魅力的な代替品として位置づけている。
論文 参考訳(メタデータ) (2024-06-12T14:01:12Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。