Fugu-MT 論文翻訳(概要): MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation

論文の概要: MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation

arxiv url: http://arxiv.org/abs/2409.19937v1
Date: Mon, 30 Sep 2024 04:28:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 16:47:30.387027
Title: MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation
Title（参考訳）: MaskMamba: マスク画像生成のためのハイブリッドMamba-Transformerモデル
Authors: Wenchao Chen, Liqiang Niu, Ziyao Lu, Fandong Meng, Jie Zhou,
Abstract要約: MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
参考スコア（独自算出の注目度）: 63.73137438677585
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image generation models have encountered challenges related to scalability and quadratic complexity, primarily due to the reliance on Transformer-based backbones. In this study, we introduce MaskMamba, a novel hybrid model that combines Mamba and Transformer architectures, utilizing Masked Image Modeling for non-autoregressive image synthesis. We meticulously redesign the bidirectional Mamba architecture by implementing two key modifications: (1) replacing causal convolutions with standard convolutions to better capture global context, and (2) utilizing concatenation instead of multiplication, which significantly boosts performance while accelerating inference speed. Additionally, we explore various hybrid schemes of MaskMamba, including both serial and grouped parallel arrangements. Furthermore, we incorporate an in-context condition that allows our model to perform both class-to-image and text-to-image generation tasks. Our MaskMamba outperforms Mamba-based and Transformer-based models in generation quality. Notably, it achieves a remarkable $54.44\%$ improvement in inference speed at a resolution of $2048\times 2048$ over Transformer.
Abstract（参考訳）: 画像生成モデルは、主にTransformerベースのバックボーンに依存するため、スケーラビリティと二次的複雑性に関連する課題に直面している。本研究では,非自己回帰画像合成にMasked Image Modelingを応用して,MaskMambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルを提案する。 1) 因果的畳み込みを標準的な畳み込みに置き換え、グローバルな文脈をよりよく捉え、2) 乗算の代わりに連結を利用して、推論速度を加速しながら、性能を大幅に向上させる。さらに、シリアルおよびグループ化された並列配置を含む、MaskMambaの様々なハイブリッドスキームについて検討する。さらに,クラス・ツー・イメージ生成タスクとテキスト・ツー・イメージ生成タスクの両方の実行が可能なコンテキスト内条件を組み込んだ。私たちのMaskMambaは、MambaベースのモデルとTransformerベースのモデルを世代品質で上回ります。注目すべきは、Transformerの2048ドルという解像度で、推論速度が54.44ドル%向上したことだ。

関連論文リスト

OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。 JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文参考訳（メタデータ） (2025-03-11T17:59:46Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
Mamba-ST: State Space Model for Efficient Style Transfer [5.869642560299033]
本稿では,新しい状態空間モデル(SSM)であるMambaの設計について検討する。そこで我々は,2つの異なる埋め込みを1つの出力に組み合わせることのできるクロスアテンション層の挙動をシミュレートするために,マンバ線形方程式を適用した。その結果,ArtFIDとFIDの両方の指標で品質が向上した。
論文参考訳（メタデータ） (2024-09-16T15:20:48Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。 Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。パラメータ数は128Mから1.3Bまで様々である。
論文参考訳（メタデータ） (2024-08-22T09:27:49Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
Dimba: Transformer-Mamba Diffusion Models [32.04949173308355]
本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
論文参考訳（メタデータ） (2024-06-03T09:51:59Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。 MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。 3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-20T13:19:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。