論文の概要: Improved Techniques for Training Score-Based Generative Models
- arxiv url: http://arxiv.org/abs/2006.09011v2
- Date: Fri, 23 Oct 2020 19:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:52:43.368975
- Title: Improved Techniques for Training Score-Based Generative Models
- Title(参考訳): スコアベース生成モデルの訓練手法の改善
- Authors: Yang Song and Stefano Ermon
- Abstract要約: 本研究では,高次元空間におけるスコアモデルからの学習とサンプリングに関する新しい理論的解析を行う。
スコアベースの生成モデルを前例のない解像度で画像に拡張することができる。
我々のスコアベースモデルは、様々な画像データセットで最良クラスGANに匹敵する高忠実度サンプルを生成することができる。
- 参考スコア(独自算出の注目度): 104.20217659157701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based generative models can produce high quality image samples
comparable to GANs, without requiring adversarial optimization. However,
existing training procedures are limited to images of low resolution (typically
below 32x32), and can be unstable under some settings. We provide a new
theoretical analysis of learning and sampling from score models in high
dimensional spaces, explaining existing failure modes and motivating new
solutions that generalize across datasets. To enhance stability, we also
propose to maintain an exponential moving average of model weights. With these
improvements, we can effortlessly scale score-based generative models to images
with unprecedented resolutions ranging from 64x64 to 256x256. Our score-based
models can generate high-fidelity samples that rival best-in-class GANs on
various image datasets, including CelebA, FFHQ, and multiple LSUN categories.
- Abstract(参考訳): スコアベースの生成モデルは、逆最適化を必要とせず、gansに匹敵する高品質の画像サンプルを生成することができる。
しかし、既存のトレーニング手順は低解像度の画像(通常32x32未満)に限られており、いくつかの設定では不安定である。
高次元空間におけるスコアモデルからの学習とサンプリングの新たな理論解析を行い、既存の障害モードを説明し、データセットをまたいで一般化する新しい解を動機付ける。
安定性を高めるため,モデル重量の指数移動平均値の維持も提案する。
これらの改良により、64x64から256x256までの前例のない解像度の画像にスコアベースの生成モデルを強制的にスケールすることができる。
我々のスコアベースモデルは、CelebA、FFHQ、および複数のLSUNカテゴリを含む、さまざまな画像データセットにおいて、クラス最高のGANと競合する高忠実度サンプルを生成することができる。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - WDM: 3D Wavelet Diffusion Models for High-Resolution Medical Image Synthesis [1.647759094903376]
本研究はウェーブレット画像に拡散モデルを適用するウェーブレットベースの医用画像合成フレームワークであるWDMを提案する。
BraTS と LIDC-IDRI の非条件画像生成実験の結果,FID (State-of-the-art image fidelity) とMS-SSIM (Simified diversity) のスコアが得られた。
提案手法は,高画質画像を256倍256倍256$の解像度で生成できる唯一の手法である。
論文 参考訳(メタデータ) (2024-02-29T11:11:05Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Enhancing Diffusion Models with 3D Perspective Geometry Constraints [10.21800236402905]
本稿では、視点精度を向上させるために、生成モデルのトレーニングプロセスに新しい幾何学的制約を導入する。
この制約でトレーニングされたモデルの出力は、どちらもよりリアルに見え、生成した画像に基づいてトレーニングされた下流モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-12-01T21:56:43Z) - Benchmark Generation Framework with Customizable Distortions for Image
Classifier Robustness [4.339574774938128]
本稿では,画像分類モデルのロバスト性を評価するために,逆ベンチマークを生成する新しいフレームワークを提案する。
当社のフレームワークでは,画像に最適な歪みの種類をカスタマイズすることが可能で,デプロイメントに関連する歪みに対処する上で有効である。
論文 参考訳(メタデータ) (2023-10-28T07:40:42Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。