論文の概要: U-Shape Mamba: State Space Model for faster diffusion
- arxiv url: http://arxiv.org/abs/2504.13499v2
- Date: Sat, 26 Apr 2025 07:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.603764
- Title: U-Shape Mamba: State Space Model for faster diffusion
- Title(参考訳): U-Shape Mamba: 高速拡散のための状態空間モデル
- Authors: Alex Ergasti, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati,
- Abstract要約: U-Shape Mambaは、U-Netのような階層構造内でMambaベースの層を利用する新しい拡散モデルである。
USMは強力な生成能力を維持しながら計算オーバーヘッドを大幅に削減する。
- 参考スコア(独自算出の注目度): 6.076017404694899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have become the most popular approach for high-quality image generation, but their high computational cost still remains a significant challenge. To address this problem, we propose U-Shape Mamba (USM), a novel diffusion model that leverages Mamba-based layers within a U-Net-like hierarchical structure. By progressively reducing sequence length in the encoder and restoring it in the decoder through Mamba blocks, USM significantly lowers computational overhead while maintaining strong generative capabilities. Experimental results against Zigma, which is currently the most efficient Mamba-based diffusion model, demonstrate that USM achieves one-third the GFlops, requires less memory and is faster, while outperforming Zigma in image quality. Frechet Inception Distance (FID) is improved by 15.3, 0.84 and 2.7 points on AFHQ, CelebAHQ and COCO datasets, respectively. These findings highlight USM as a highly efficient and scalable solution for diffusion-based generative models, making high-quality image synthesis more accessible to the research community while reducing computational costs.
- Abstract(参考訳): 拡散モデルは高品質の画像生成において最も一般的なアプローチとなっているが、その高い計算コストは依然として大きな課題である。
この問題を解決するために,U-Netのような階層構造内のマンバ層を利用した新しい拡散モデルであるU-Shape Mamba (USM)を提案する。
エンコーダのシーケンス長を徐々に削減し、Mambaブロックを介してデコーダに復元することにより、USMは強力な生成能力を保ちながら計算オーバーヘッドを大幅に削減する。
現在最も効率的なMambaベースの拡散モデルであるZigmaに対する実験の結果、USMはGFlopsの3分の1を達成し、メモリの削減と高速化を図っている。
Frechet Inception Distance (FID)は、AFHQ、CelebAHQ、COCOの各データセットで15.3、0.84、および2.7ポイント改善されている。
これらの結果から,USMは拡散型生成モデルのための高効率でスケーラブルなソリューションであり,高画質な画像合成を研究コミュニティに提供し,計算コストを削減できることを示した。
関連論文リスト
- TFDM: Time-Variant Frequency-Based Point Cloud Diffusion with Mamba [20.941775037488863]
拡散モデルは現在、様々な生成タスクに対して印象的なパフォーマンスを示している。
画像拡散に関する最近の研究は,マンバ(状態空間モデル)の強みを強調している
本稿では,2つの遅延Mambaブロック(DM-Block)と時間変動周波数エンコーダ(TF-Encoder)を含む新しい拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T10:00:14Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images [4.9571046933387395]
UNetMambaは、MambaをベースにしたUNetに似たセマンティックセグメンテーションモデルである。
UNetMambaは、mIoUによる最先端の手法よりも、LoveDAでは0.87%、ISPRS Vaihingenでは0.39%向上している。
論文 参考訳(メタデータ) (2024-08-21T11:53:53Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。