論文の概要: Elucidating the Design Space of Diffusion-Based Generative Models
- arxiv url: http://arxiv.org/abs/2206.00364v1
- Date: Wed, 1 Jun 2022 10:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:53:57.061148
- Title: Elucidating the Design Space of Diffusion-Based Generative Models
- Title(参考訳): 拡散に基づく生成モデルの設計空間の解明
- Authors: Tero Karras, Miika Aittala, Timo Aila, Samuli Laine
- Abstract要約: 具体的な設計選択を明確に分離する設計空間を提示する。
これにより、サンプリングおよびトレーニングプロセスとスコアネットワークのプレコンディショニングの両方にいくつかの変更が特定できます。
この改良により, CIFAR-10では1.79, 非条件では1.97, 非条件では1.79の新たなFIDが得られた。
- 参考スコア(独自算出の注目度): 37.643953493556765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We argue that the theory and practice of diffusion-based generative models
are currently unnecessarily convoluted and seek to remedy the situation by
presenting a design space that clearly separates the concrete design choices.
This lets us identify several changes to both the sampling and training
processes, as well as preconditioning of the score networks. Together, our
improvements yield new state-of-the-art FID of 1.79 for CIFAR-10 in a
class-conditional setting and 1.97 in an unconditional setting, with much
faster sampling (35 network evaluations per image) than prior designs. To
further demonstrate their modular nature, we show that our design changes
dramatically improve both the efficiency and quality obtainable with
pre-trained score networks from previous work, including improving the FID of
an existing ImageNet-64 model from 2.07 to near-SOTA 1.55.
- Abstract(参考訳): 拡散に基づく生成モデルの理論と実践は、現在不要に畳み込まれており、具体的な設計の選択を明確に分離した設計空間を提示して状況を改善することを目指している。
これにより、サンプリングおよびトレーニングプロセスとスコアネットワークのプレコンディショニングの両方にいくつかの変更が特定できます。
その結果,CIFAR-10では1.79FID,非条件設定では1.97FID,以前の設計よりはるかに高速なサンプリング(画像毎の35ネットワーク評価)が可能となった。
さらにモジュール性を示すために,既存のimagenet-64モデルのfidを2.07から約1.55まで改善することを含め,事前学習したスコアネットワークで得られる効率と品質を劇的に改善した。
関連論文リスト
- Improving Diffusion-Based Generative Models via Approximated Optimal
Transport [41.25847212384836]
本稿では,拡散モデルを用いた新しい学習手法である近似最適輸送手法を紹介する。
トレーニングにAOTを用いることで,画像品質の向上とサンプリングステップの短縮を実現した。
論文 参考訳(メタデータ) (2024-03-08T05:43:00Z) - Structure-Guided Adversarial Training of Diffusion Models [27.723913809313125]
拡散モデル(SADM)の構造誘導型逆トレーニングについて紹介する。
トレーニングバッチ毎にサンプル間の多様体構造を学習するようにモデルを強制する。
SADMは既存の拡散変換器を大幅に改善し、画像生成や微調整タスクにおいて既存の手法より優れている。
論文 参考訳(メタデータ) (2024-02-27T15:05:13Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [38.547188041252575]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - New Perspective on Progressive GANs Distillation for One-class Novelty
Detection [21.90786581579228]
Thecoder-Decoder-Encoder scheme (EDE-GAN) に基づくジェネレーティブ・アドバイサル・ネットワークは最先端の性能を実現する。
新しい技術、P-KDGAN(Progressive Knowledge Distillation with GAN)は、設計された蒸留損失を通じて2つの標準GANを接続する。
2段階のプログレッシブ・ラーニングは、シングルステップ・アプローチよりも成績が向上し、学生のGANのパフォーマンスを継続的に向上させる。
論文 参考訳(メタデータ) (2021-09-15T13:45:30Z) - Improved Consistency Regularization for GANs [102.17007700413326]
本稿では,その性能向上を目的とした整合性正規化手法について,いくつかの改良を加えて検討する。
CIFAR-10とCelebAの無条件画像合成では、様々なGANアーキテクチャ上で最もよく知られたFIDスコアが得られる。
ImageNet-2012では、この手法をオリジナルのBigGANモデルに適用し、FIDを6.66から5.38に改善する。
論文 参考訳(メタデータ) (2020-02-11T22:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。