論文の概要: ZigMa: A DiT-style Zigzag Mamba Diffusion Model
- arxiv url: http://arxiv.org/abs/2403.13802v2
- Date: Mon, 1 Apr 2024 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 07:58:37.258298
- Title: ZigMa: A DiT-style Zigzag Mamba Diffusion Model
- Title(参考訳): ZigMa: DiTスタイルのZigzag Mamba拡散モデル
- Authors: Vincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Björn Ommer,
- Abstract要約: 我々は、Mambaと呼ばれる状態空間モデルの長いシーケンスモデリング機能を活用し、その視覚データ生成への適用性を高めることを目指している。
我々は,Zigzag Mamba という,シンプルな,プラグアンドプレイのゼロパラメータ法を導入し,Mamba ベースのベースラインを上回ります。
Zigzag Mamba と Interpolant フレームワークを統合し,大規模なビジュアルデータセット上でのモデルのスケーラビリティについて検討する。
- 参考スコア(独自算出の注目度): 23.581004543220622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The diffusion model has long been plagued by scalability and quadratic complexity issues, especially within transformer-based structures. In this study, we aim to leverage the long sequence modeling capability of a State-Space Model called Mamba to extend its applicability to visual data generation. Firstly, we identify a critical oversight in most current Mamba-based vision methods, namely the lack of consideration for spatial continuity in the scan scheme of Mamba. Secondly, building upon this insight, we introduce a simple, plug-and-play, zero-parameter method named Zigzag Mamba, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines. Lastly, we integrate Zigzag Mamba with the Stochastic Interpolant framework to investigate the scalability of the model on large-resolution visual datasets, such as FacesHQ $1024\times 1024$ and UCF101, MultiModal-CelebA-HQ, and MS COCO $256\times 256$ . Code will be released at https://taohu.me/zigma/
- Abstract(参考訳): 拡散モデルは、特にトランスフォーマーベースの構造において、スケーラビリティと二次的な複雑性の問題に長い間悩まされてきた。
本研究では,Mambaと呼ばれる状態空間モデルの長周期モデリング機能を活用し,その視覚データ生成への適用性を高めることを目的とする。
まず,マンバのスキャン方式における空間的連続性に対する考慮の欠如について,現在のマンバをベースとした視覚的手法における重要な監視点を同定する。
第二に、この知見に基づいて、Zigzag Mambaというシンプルな、プラグアンドプレイゼロパラメータ法を導入し、Mambaベースのベースラインよりも優れ、トランスフォーマーベースのベースラインよりも高速でメモリ利用率の向上を示す。
最後に、Zigzag MambaとStochastic Interpolantフレームワークを統合して、FacesHQ 1024\times 1024$とUCF101、MultiModal-CelebA-HQ、MS COCO $256\times 256$といった大規模なビジュアルデータセット上のモデルのスケーラビリティを調査します。
コードはhttps://taohu.me/zigma/でリリースされる。
関連論文リスト
- Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting [14.476978391383405]
時系列予測は重要な問題であり、天気予報、株式市場、科学シミュレーションなど様々な応用において重要な役割を果たしている。
状態空間モデル(SSM)の最近の進歩は、長距離依存のモデリングにおいて顕著な性能を示している。
本稿では,長距離依存にMambaを,短距離依存にTransformerを内部的に組み合わせたハイブリッドフレームワークMambaformerを提案する。
論文 参考訳(メタデータ) (2024-04-23T05:43:44Z) - SPMamba: State-space model is all you need in speech separation [6.590157910988076]
状態空間モデルを用いた音声分離のためのネットワークアーキテクチャを提案する。
我々はTF-GridNetモデルを基本フレームワークとして採用し、Transformerコンポーネントを双方向のMambaモジュールで置き換える。
実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - MamMIL: Multiple Instance Learning for Whole Slide Images with State
Space Models [58.39336492765728]
がん診断のゴールドスタンダードである病理診断は、TransformerとMIL(Multiple Case Learning)フレームワークを併用して、全スライド画像(WSI)を用いて、優れたパフォーマンスを実現している。
選択的構造化状態空間モデル(Mamba)とMILとの協調によるWSI分類のためのMamMILフレームワークを提案する。
具体的には、マンバが一方向一次元(一次元)シーケンスモデリングしか行えないという問題を解決するため、双方向状態空間モデルと2次元コンテキスト認識ブロックを革新的に導入する。
論文 参考訳(メタデータ) (2024-03-08T09:02:13Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [73.06596715100859]
基本モデルの開発により、赤外線小目標検出(ISTD)は大きな進歩を遂げた。
効率的なISTDのためのMamba-in-Mamba (MiM-ISTD) 構造を調整する。
NUAA-SIRSTとIRSTD-1kを用いた実験により,本手法の精度と効率が向上した。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [59.38202882781188]
本稿では,大域的モデリングと線形複雑度を考慮したフレームワークであるPointMambaを提案する。
組込み点パッチを入力として,SSMのグローバルモデリング能力を高めるための並べ替え戦略を提案する。
実験の結果,提案したPointMambaは,異なるポイントクラウド分析データセット上で,トランスフォーマーをベースとした性能よりも優れていた。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image
Segmentation [17.676472608152704]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。
SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。
BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文 参考訳(メタデータ) (2024-01-24T16:17:23Z) - VMamba: Visual State Space Model [92.83984290020891]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習のバックボーンネットワークとして長い間主流であった。
本稿では,ViTsの有利な特徴を維持しつつ,計算複雑性を線形化することを目的とした汎用視覚バックボーンモデルであるVMambaを提案する。
視覚データ処理におけるVMambaの適応性を高めるため,グローバルな受容場を持つ2次元画像空間における1次元選択的走査を可能にするCSM(Cross-Scan Module)を導入する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [37.786327629797654]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。