論文の概要: DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention
- arxiv url: http://arxiv.org/abs/2405.18428v2
- Date: Tue, 26 Nov 2024 16:42:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:24:27.044124
- Title: DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention
- Title(参考訳): DiG: Gated Linear Attention を用いたスケーラブルかつ効率的な拡散モデル
- Authors: Lianghui Zhu, Zilong Huang, Bencheng Liao, Jun Hao Liew, Hanshu Yan, Jiashi Feng, Xinggang Wang,
- Abstract要約: Diffusion Gated Linear Attention Transformers (DiG) は、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
- 参考スコア(独自算出の注目度): 82.24166963631949
- License:
- Abstract: Diffusion models with large-scale pre-training have achieved significant success in the field of visual content generation, particularly exemplified by Diffusion Transformers (DiT). However, DiT models have faced challenges with quadratic complexity efficiency, especially when handling long sequences. In this paper, we aim to incorporate the sub-quadratic modeling capability of Gated Linear Attention (GLA) into the 2D diffusion backbone. Specifically, we introduce Diffusion Gated Linear Attention Transformers (DiG), a simple, adoptable solution with minimal parameter overhead. We offer two variants, i,e, a plain and U-shape architecture, showing superior efficiency and competitive effectiveness. In addition to superior performance to DiT and other sub-quadratic-time diffusion models at $256 \times 256$ resolution, DiG demonstrates greater efficiency than these methods starting from a $512$ resolution. Specifically, DiG-S/2 is $2.5\times$ faster and saves $75.7\%$ GPU memory compared to DiT-S/2 at a $1792$ resolution. Additionally, DiG-XL/2 is $4.2\times$ faster than the Mamba-based model at a $1024$ resolution and $1.8\times$ faster than DiT with FlashAttention-2 at a $2048$ resolution. We will release the code soon. Code is released at https://github.com/hustvl/DiG.
- Abstract(参考訳): 大規模な事前学習を伴う拡散モデルは、特に拡散変換器(DiT)で実証された視覚コンテンツ生成の分野で大きな成功を収めた。
しかし、DiTモデルは、特に長いシーケンスを扱う場合、二次的な複雑性効率の課題に直面している。
本稿では, Gated Linear Attention (GLA) の準二次モデリング機能を2次元拡散バックボーンに組み込むことを目的とする。
具体的には,Diffusion Gated Linear Attention Transformers (DiG)を導入する。
より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
DiTや他の256 \times 256$解像度のサブクオーラ時間拡散モデルよりも優れた性能に加えて、DiGは512$解像度から始まるこれらの手法よりも高い効率を示す。
具体的には、DiG-S/2は2.5\times$高速で、DiT-S/2と比較して7.7\%のGPUメモリを1792ドルの解像度で保存する。
さらに、DIG-XL/2は、Mambaベースのモデルよりも1024ドルで4.2\times$、FlashAttention-2では248ドルでDiTより1.8\times$速い。
私たちはすぐにコードをリリースします。
コードはhttps://github.com/hustvl/DiG.comで公開されている。
関連論文リスト
- Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。
我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。
具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。
我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文 参考訳(メタデータ) (2024-11-12T18:49:06Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - $Δ$-DiT: A Training-Free Acceleration Method Tailored for Diffusion Transformers [13.433352602762511]
トレーニング不要な推論アクセラレーションフレームワークであるDelta$-DiTを提案する。
$Delta$-DiTは、設計されたキャッシュ機構を使用して、初期サンプリングステージの後方DiTブロックと後期ステージの前方DiTブロックを高速化する。
PIXART-$alpha$とDiT-XLの実験は、$Delta$-DiTが20ステップ世代で1.6倍のスピードアップを達成できることを示した。
論文 参考訳(メタデータ) (2024-06-03T09:10:44Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Scalable Diffusion Models with Transformers [18.903245758902834]
画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。
変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
論文 参考訳(メタデータ) (2022-12-19T18:59:58Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。