論文の概要: MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
- arxiv url: http://arxiv.org/abs/2410.00871v1
- Date: Tue, 1 Oct 2024 17:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 03:46:09.170824
- Title: MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining
- Title(参考訳): MAP: Masked Autoregressive Pretraining を用いたハイブリッド・マンバ・トランスフォーマー・ビジョンバックボーンの可能性
- Authors: Yunze Liu, Li Yi,
- Abstract要約: 本稿では,Masked Autoregressive Pretraining (MAP) を提案する。
MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 23.37555991996508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mamba has achieved significant advantages in long-context modeling and autoregressive tasks, but its scalability with large parameters remains a major limitation in vision applications. pretraining is a widely used strategy to enhance backbone model performance. Although the success of Masked Autoencoder in Transformer pretraining is well recognized, it does not significantly improve Mamba's visual learning performance. We found that using the correct autoregressive pretraining can significantly boost the performance of the Mamba architecture. Based on this analysis, we propose Masked Autoregressive Pretraining (MAP) to pretrain a hybrid Mamba-Transformer vision backbone network. This strategy combines the strengths of both MAE and Autoregressive pretraining, improving the performance of Mamba and Transformer modules within a unified paradigm. Additionally, in terms of integrating Mamba and Transformer modules, we empirically found that inserting Transformer layers at regular intervals within Mamba layers can significantly enhance downstream task performance. Experimental results show that both the pure Mamba architecture and the hybrid Mamba-Transformer vision backbone network pretrained with MAP significantly outperform other pretraining strategies, achieving state-of-the-art performance. We validate the effectiveness of the method on both 2D and 3D datasets and provide detailed ablation studies to support the design choices for each component.
- Abstract(参考訳): Mambaは、長期コンテキストモデリングと自動回帰タスクにおいて、大きなアドバンテージを達成してきたが、大きなパラメータを持つスケーラビリティは、ビジョンアプリケーションにおいて依然として大きな制限となっている。
プレトレーニングは バックボーンモデルの性能を高めるために 広く使われている戦略です
トランスフォーマー事前学習におけるMasked Autoencoderの成功はよく認識されているが、Mambaの視覚学習性能はそれほど良くない。
適切な自己回帰事前学習を用いることで,Mambaアーキテクチャの性能を大幅に向上させることができることがわかった。
そこで本研究では,Masked Autoregressive Pretraining (MAP) を用いて,ハイブリッド型Mamba-Transformer視覚バックボーンネットワークの事前学習を行う。
この戦略は、MAEとAutoregressive Pretrainingの両方の長所を組み合わせることで、統一パラダイム内でのMambaおよびTransformerモジュールのパフォーマンスを向上させる。
さらに、MambaとTransformerモジュールの統合という観点からは、TransformerレイヤをMambaレイヤ内で一定間隔で挿入することで、ダウンストリームタスクのパフォーマンスが大幅に向上することを示した。
実験結果から,MAPで事前学習した純マンバアーキテクチャとハイブリッドマンバ・トランスフォーマー・ビジョン・バックボーンネットワークが,他の事前学習戦略よりも優れ,最先端の性能を実現していることがわかった。
提案手法の有効性を2次元および3次元のデータセットで検証し,各コンポーネントの設計選択を支援するための詳細なアブレーション研究を行う。
関連論文リスト
- MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。
Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。
本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文 参考訳(メタデータ) (2024-11-06T11:57:55Z) - Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion [10.854742185190482]
MambaとVision Mamba(Vim)モデルは、Transformerアーキテクチャに基づくメソッドの代替としての可能性を示している。
この研究は、Vimモデルのトレーニング効率を高めるための層間トークン融合技術であるFast Mamba for Vision (Famba-V)を導入している。
論文 参考訳(メタデータ) (2024-09-15T18:02:26Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Autoregressive Pretraining with Mamba in Vision [45.25546594814871]
本稿では,マンバの視覚能力が自己回帰前訓練によって著しく向上できることを示す。
パフォーマンス面では、自動回帰事前訓練は、Mambaアーキテクチャを極めて高い精度で装備する。
大きめのMambaは、384時間384ドルの入力で微調整すると、画像ネットの精度が85.0%に達します。
論文 参考訳(メタデータ) (2024-06-11T17:58:34Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。