論文の概要: Scalable Diffusion Models with State Space Backbone
- arxiv url: http://arxiv.org/abs/2402.05608v1
- Date: Thu, 8 Feb 2024 12:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 15:16:13.996216
- Title: Scalable Diffusion Models with State Space Backbone
- Title(参考訳): 状態空間バックボーンを持つスケーラブル拡散モデル
- Authors: Zhengcong Fei, Mingyuan Fan, Changqian Yu, Junshi Huang
- Abstract要約: 拡散状態空間モデルは、時間、条件、ノイズの多いイメージパッチを含む全ての入力をトークンとして扱う。
我々はGflopsのフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。
遅延空間におけるDiS-H/2モデルは、クラス条件のImageNetベンチマークにおける事前拡散モデルと同様のパフォーマンスレベルを達成する。
- 参考スコア(独自算出の注目度): 37.06510505018059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new exploration into a category of diffusion models
built upon state space architecture. We endeavor to train diffusion models for
image data, wherein the traditional U-Net backbone is supplanted by a state
space backbone, functioning on raw patches or latent space. Given its notable
efficacy in accommodating long-range dependencies, Diffusion State Space Models
(DiS) are distinguished by treating all inputs including time, condition, and
noisy image patches as tokens. Our assessment of DiS encompasses both
unconditional and class-conditional image generation scenarios, revealing that
DiS exhibits comparable, if not superior, performance to CNN-based or
Transformer-based U-Net architectures of commensurate size. Furthermore, we
analyze the scalability of DiS, gauged by the forward pass complexity
quantified in Gflops. DiS models with higher Gflops, achieved through
augmentation of depth/width or augmentation of input tokens, consistently
demonstrate lower FID. In addition to demonstrating commendable scalability
characteristics, DiS-H/2 models in latent space achieve performance levels akin
to prior diffusion models on class-conditional ImageNet benchmarks at the
resolution of 256$\times$256 and 512$\times$512, while significantly reducing
the computational burden. The code and models are available at:
https://github.com/feizc/DiS.
- Abstract(参考訳): 本稿では,状態空間アーキテクチャ上に構築された拡散モデルのカテゴリを新たに探究する。
従来のU-Netバックボーンは、状態空間のバックボーンに取って代わられ、生のパッチや潜伏空間で機能する。
Diffusion State Space Models (DiS) は、長距離依存の調節における顕著な有効性から、時間、条件、ノイズの多い画像パッチを含む全ての入力をトークンとして扱うことで区別される。
我々の評価では,非条件画像生成シナリオとクラス条件画像生成シナリオの両方を包含し,DiSがCNNベースやTransformerベースのコンメンシュレートサイズのU-Netアーキテクチャに匹敵する性能を示した。
さらに、Gflopsで定量化されるフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。
入力トークンの深さ/幅の増大や増大によって達成される高いGflopsを持つDiSモデルは、一貫して低いFIDを示す。
遅延空間におけるDIS-H/2モデルは、圧縮可能なスケーラビリティ特性を示すことに加えて、256$\times$256および512$\times$512の解像度で、クラス条件のImageNetベンチマークの事前拡散モデルと同様のパフォーマンスレベルを達成する。
コードとモデルは以下の通りである。
関連論文リスト
- Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。