論文の概要: MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation
- arxiv url: http://arxiv.org/abs/2409.19937v1
- Date: Mon, 30 Sep 2024 04:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 16:47:30.387027
- Title: MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation
- Title(参考訳): MaskMamba: マスク画像生成のためのハイブリッドMamba-Transformerモデル
- Authors: Wenchao Chen, Liqiang Niu, Ziyao Lu, Fandong Meng, Jie Zhou,
- Abstract要約: MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
- 参考スコア(独自算出の注目度): 63.73137438677585
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image generation models have encountered challenges related to scalability and quadratic complexity, primarily due to the reliance on Transformer-based backbones. In this study, we introduce MaskMamba, a novel hybrid model that combines Mamba and Transformer architectures, utilizing Masked Image Modeling for non-autoregressive image synthesis. We meticulously redesign the bidirectional Mamba architecture by implementing two key modifications: (1) replacing causal convolutions with standard convolutions to better capture global context, and (2) utilizing concatenation instead of multiplication, which significantly boosts performance while accelerating inference speed. Additionally, we explore various hybrid schemes of MaskMamba, including both serial and grouped parallel arrangements. Furthermore, we incorporate an in-context condition that allows our model to perform both class-to-image and text-to-image generation tasks. Our MaskMamba outperforms Mamba-based and Transformer-based models in generation quality. Notably, it achieves a remarkable $54.44\%$ improvement in inference speed at a resolution of $2048\times 2048$ over Transformer.
- Abstract(参考訳): 画像生成モデルは、主にTransformerベースのバックボーンに依存するため、スケーラビリティと二次的複雑性に関連する課題に直面している。
本研究では,非自己回帰画像合成にMasked Image Modelingを応用して,MaskMambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルを提案する。
1) 因果的畳み込みを標準的な畳み込みに置き換え、グローバルな文脈をよりよく捉え、2) 乗算の代わりに連結を利用して、推論速度を加速しながら、性能を大幅に向上させる。
さらに、シリアルおよびグループ化された並列配置を含む、MaskMambaの様々なハイブリッドスキームについて検討する。
さらに,クラス・ツー・イメージ生成タスクとテキスト・ツー・イメージ生成タスクの両方の実行が可能なコンテキスト内条件を組み込んだ。
私たちのMaskMambaは、MambaベースのモデルとTransformerベースのモデルを世代品質で上回ります。
注目すべきは、Transformerの2048ドルという解像度で、推論速度が54.44ドル%向上したことだ。
関連論文リスト
- Mamba-ST: State Space Model for Efficient Style Transfer [5.869642560299033]
本稿では,新しい状態空間モデル(SSM)であるMambaの設計について検討する。
そこで我々は,2つの異なる埋め込みを1つの出力に組み合わせることのできるクロスアテンション層の挙動をシミュレートするために,マンバ線形方程式を適用した。
その結果,ArtFIDとFIDの両方の指標で品質が向上した。
論文 参考訳(メタデータ) (2024-09-16T15:20:48Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Dimba: Transformer-Mamba Diffusion Models [32.04949173308355]
本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。
大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
論文 参考訳(メタデータ) (2024-06-03T09:51:59Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。