論文の概要: ZigMa: A DiT-style Zigzag Mamba Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.13802v3
- Date: Sun, 24 Nov 2024 14:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:17:54.019678
- Title: ZigMa: A DiT-style Zigzag Mamba Diffusion Model
- Title(参考訳): ZigMa: DiTスタイルのZigzag Mamba拡散モデル
- Authors: Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Schusterbauer, Björn Ommer,
- Abstract要約: 我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
- 参考スコア(独自算出の注目度): 22.68317748373856
- License:
- Abstract: The diffusion model has long been plagued by scalability and quadratic complexity issues, especially within transformer-based structures. In this study, we aim to leverage the long sequence modeling capability of a State-Space Model called Mamba to extend its applicability to visual data generation. Firstly, we identify a critical oversight in most current Mamba-based vision methods, namely the lack of consideration for spatial continuity in the scan scheme of Mamba. Secondly, building upon this insight, we introduce a simple, plug-and-play, zero-parameter method named Zigzag Mamba, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines. Lastly, we integrate Zigzag Mamba with the Stochastic Interpolant framework to investigate the scalability of the model on large-resolution visual datasets, such as FacesHQ $1024\times 1024$ and UCF101, MultiModal-CelebA-HQ, and MS COCO $256\times 256$ . Code will be released at https://taohu.me/zigma/
- Abstract(参考訳): 拡散モデルは、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な複雑性の問題に長い間悩まされてきた。
本研究では,Mambaと呼ばれる状態空間モデルの長周期モデリング機能を活用し,その視覚データ生成への適用性を高めることを目的とする。
まず,マンバのスキャン方式における空間的連続性に対する考慮の欠如について,現在のマンバをベースとした視覚的手法における重要な監視点を同定する。
第二に、この知見に基づいて、Zigzag Mambaというシンプルな、プラグアンドプレイゼロパラメータ法を導入し、Mambaベースのベースラインよりも優れ、トランスフォーマーベースのベースラインよりも高速でメモリ利用率の向上を示す。
最後に、Zigzag MambaとStochastic Interpolantフレームワークを統合して、FacesHQ 1024\times 1024$とUCF101、MultiModal-CelebA-HQ、MS COCO $256\times 256$といった大規模なビジュアルデータセット上のモデルのスケーラビリティを調査します。
コードはhttps://taohu.me/zigma/でリリースされる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - KMM: Key Frame Mask Mamba for Extended Motion Generation [21.144913854895243]
キーフレーム・マスキング・モデリング(Key frame Masking Modeling)は、キーフレーム・マスキング・モデリング(Key frame Masking Modeling)を特徴とする新しいアーキテクチャである。
我々は,従来の最先端手法と比較して,FIDが57%以上,パラメータが70%以上減少し,最先端性能を達成するため,go-toデータセットであるBABELの広範な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T14:41:38Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation [16.476244833079182]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。