論文の概要: DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
- arxiv url: http://arxiv.org/abs/2505.11196v1
- Date: Fri, 16 May 2025 12:54:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.979467
- Title: DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling
- Title(参考訳): DiCo: スケーラブルで効率的な拡散モデリングのためのConvNetの活性化
- Authors: Yuang Ai, Qihang Fan, Xuefeng Hu, Zhenheng Yang, Ran He, Huaibo Huang,
- Abstract要約: Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。
本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。
標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
- 参考スコア(独自算出の注目度): 53.33281984430122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformer (DiT), a promising diffusion model for visual generation, demonstrates impressive performance but incurs significant computational overhead. Intriguingly, analysis of pre-trained DiT models reveals that global self-attention is often redundant, predominantly capturing local patterns-highlighting the potential for more efficient alternatives. In this paper, we revisit convolution as an alternative building block for constructing efficient and expressive diffusion models. However, naively replacing self-attention with convolution typically results in degraded performance. Our investigations attribute this performance gap to the higher channel redundancy in ConvNets compared to Transformers. To resolve this, we introduce a compact channel attention mechanism that promotes the activation of more diverse channels, thereby enhancing feature diversity. This leads to Diffusion ConvNet (DiCo), a family of diffusion models built entirely from standard ConvNet modules, offering strong generative performance with significant efficiency gains. On class-conditional ImageNet benchmarks, DiCo outperforms previous diffusion models in both image quality and generation speed. Notably, DiCo-XL achieves an FID of 2.05 at 256x256 resolution and 2.53 at 512x512, with a 2.7x and 3.1x speedup over DiT-XL/2, respectively. Furthermore, our largest model, DiCo-H, scaled to 1B parameters, reaches an FID of 1.90 on ImageNet 256x256-without any additional supervision during training. Code: https://github.com/shallowdream204/DiCo.
- Abstract(参考訳): Diffusion Transformer (DiT)は、視覚生成のための有望な拡散モデルである。
興味深いことに、事前訓練されたDiTモデルの解析は、グローバルな自己注意がしばしば冗長であることを示し、主に局所的なパターンを捉え、より効率的な代替案の可能性を強調している。
本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。
しかしながら、自己意識を畳み込みに置き換えることで、一般的にパフォーマンスが低下する。
本研究は, トランスフォーマーと比較して, ConvNets のチャネル冗長性が高いことに起因する。
これを解決するために,より多様なチャネルの活性化を促進し,特徴の多様性を高めるための小型チャネルアテンション機構を導入する。
Diffusion ConvNet (DiCo)は標準のConvNetモジュールから完全に構築された拡散モデルのファミリーであり、優れた生成性能と大幅な効率向上を提供する。
クラス条件のImageNetベンチマークでは、DiCoは画像の品質と生成速度の両方で、以前の拡散モデルより優れています。
特に、DiCo-XLは256x256のFIDと512x512のFID、DiT-XL/2の2.7xと3.1xのスピードアップを実現している。
さらに、我々の最大のモデルであるDiCo-Hは、1Bパラメータにスケールし、ImageNet 256x256で1.90のFIDに達した。
コード:https://github.com/shallowdream204/DiCo。
関連論文リスト
- Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。
提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文 参考訳(メタデータ) (2024-06-13T17:59:58Z) - DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention [82.24166963631949]
Diffusion Gated Linear Attention Transformers (DiG) は、最小限のパラメータオーバーヘッドを持つ単純で適用可能なソリューションである。
より優れた効率性と競争効率を示す、平易なU字型アーキテクチャの2つのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-05-28T17:59:33Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。
これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。
SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文 参考訳(メタデータ) (2023-12-07T02:46:18Z) - Scalable Diffusion Models with Transformers [18.903245758902834]
画像の潜時拡散モデルを訓練し、一般的に使用されるU-Netバックボーンを潜時パッチで動作するトランスフォーマーに置き換える。
変換器の深さ/幅の増大や入力トークンの数の増加などにより、より高いGflopsを持つDiTは、一貫して低いFIDを持つ。
論文 参考訳(メタデータ) (2022-12-19T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。