論文の概要: Reviving ConvNeXt for Efficient Convolutional Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.09408v1
- Date: Tue, 10 Mar 2026 09:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.199951
- Title: Reviving ConvNeXt for Efficient Convolutional Diffusion Models
- Title(参考訳): 効率的な畳み込み拡散モデルのためのConvNeXtの復活
- Authors: Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo,
- Abstract要約: 本稿では,ConvNeXtに類似したバックボーンを有する完全畳み込み拡散モデル(FCDM)を提案する。
DiT-XL/2のFLOPの50%しか使用せず、FCDM-XLは7$times$と7.5$times$より少ない256$times$256と512$times$512のトレーニングステップで競合性能を達成する。
- 参考スコア(独自算出の注目度): 39.295834664366005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent diffusion models increasingly favor Transformer backbones, motivated by the remarkable scalability of fully attentional architectures. Yet the locality bias, parameter efficiency, and hardware friendliness--the attributes that established ConvNets as the efficient vision backbone--have seen limited exploration in modern generative modeling. Here we introduce the fully convolutional diffusion model (FCDM), a model having a backbone similar to ConvNeXt, but designed for conditional diffusion modeling. We find that using only 50% of the FLOPs of DiT-XL/2, FCDM-XL achieves competitive performance with 7$\times$ and 7.5$\times$ fewer training steps at 256$\times$256 and 512$\times$512 resolutions, respectively. Remarkably, FCDM-XL can be trained on a 4-GPU system, highlighting the exceptional training efficiency of our architecture. Our results demonstrate that modern convolutional designs provide a competitive and highly efficient alternative for scaling diffusion models, reviving ConvNeXt as a simple yet powerful building block for efficient generative modeling.
- Abstract(参考訳): 最近の拡散モデルではトランスフォーマーのバックボーンが好まれている。
しかし、局所性バイアス、パラメータ効率、ハードウェアフレンドリさ - 効率的なビジョンバックボーンとしてConvNetsを確立した特性 - は、近代的な生成モデリングにおいて限定的な探究を見てきた。
本稿では,ConvNeXtに類似したバックボーンを持つモデルである完全畳み込み拡散モデル(FCDM)を紹介する。
DiT-XL/2のFLOPの50%しか使用せず、FCDM-XLは7$\times$と7.5$\times$より少ない256$\times$256と512$\times$512のトレーニングステップで競合する。
注目すべきは、FCDM-XLを4-GPUシステムでトレーニングできることだ。
以上の結果から,現代の畳み込み設計は,効率的な生成モデル構築のためのシンプルかつ強力なビルディングブロックとして,ConvNeXtを復活させ,拡散モデルを拡張するための競争的かつ高効率な代替手段を提供することを示す。
関連論文リスト
- Home-made Diffusion Model from Scratch to Hatch [0.9383683724544296]
ホームメイド拡散モデル(Home-made Diffusion Model, HDM)は、消費者向けハードウェアのトレーニングに最適化された、効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024世代の品質を実現し、トレーニングコストは535-620ドルと極めて低い。
論文 参考訳(メタデータ) (2025-09-07T14:21:57Z) - DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [41.128461167768805]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。
我々は、効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして、畳み込みを再考する。
DiCo-XLは256x256のFIDと512x512のFID、2.7xと3.1xのスピードアップをそれぞれDiT-XL/2で達成している。
論文 参考訳(メタデータ) (2025-05-16T12:54:04Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - SlimFlow: Training Smaller One-Step Diffusion Models with Rectified Flow [24.213303324584906]
我々は, 強力な整流フローフレームワークに基づく, 小型かつ効率的な1ステップ拡散モデルを構築した。
我々は、FIDが5.02と15.7Mの1ステップ拡散モデルを訓練し、従来の最先端1ステップ拡散モデルよりも優れている。
論文 参考訳(メタデータ) (2024-07-17T16:38:45Z) - TerDiT: Ternary Diffusion Models with Transformers [88.03738506648291]
TerDiTは、低ビット拡散変圧器モデルのための最初の量子化対応トレーニングスキームである。
モデルサイズは600Mから4.2B、画像解像度は256$times$256から512$times$512である。
論文 参考訳(メタデータ) (2024-05-23T17:57:24Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。