論文の概要: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step
- arxiv url: http://arxiv.org/abs/2410.14919v3
- Date: Wed, 20 Nov 2024 17:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:57.578455
- Title: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step
- Title(参考訳): 対人スコア・アイデンティティ・蒸留 : 1ステップで教師を追い越す
- Authors: Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang,
- Abstract要約: アイデンティティ蒸留(SiD)は、事前訓練された拡散モデルのみを活用することにより、画像生成におけるSOTA性能を達成したデータフリー手法である。
我々は,SiDA (SiD with Adversarial Loss)を導入し, 生成品質の向上だけでなく, 実画像と逆損失を取り入れて蒸留効率を向上させる。
- 参考スコア(独自算出の注目度): 64.53013367995325
- License:
- Abstract: Score identity Distillation (SiD) is a data-free method that has achieved SOTA performance in image generation by leveraging only a pretrained diffusion model, without requiring any training data. However, its ultimate performance is constrained by how accurate the pretrained model captures the true data scores at different stages of the diffusion process. In this paper, we introduce SiDA (SiD with Adversarial Loss), which not only enhances generation quality but also improves distillation efficiency by incorporating real images and adversarial loss. SiDA utilizes the encoder from the generator's score network as a discriminator, boosting its ability to distinguish between real images and those generated by SiD. The adversarial loss is batch-normalized within each GPU and then combined with the original SiD loss. This integration effectively incorporates the average "fakeness" per GPU batch into the pixel-based SiD loss, enabling SiDA to distill a single-step generator either from scratch or by fine-tuning an existing one. SiDA converges significantly faster than its predecessor when trained from scratch, and swiftly improves upon the original model's performance after an initial warmup period during fine-tuning from a pre-distilled SiD generator. This one-step adversarial distillation method establishes new benchmarks in generation performance when distilling EDM diffusion models pretrained on CIFAR-10 (32x32) and ImageNet (64x64), achieving FID score of 1.110 on ImageNet 64x64. It sets record-low FID scores when distilling EDM2 models trained on ImageNet (512x512), surpassing even the largest teacher model, EDM2-XXL. Our SiDA's results record FID scores of 2.156 for EDM2-XS, 1.669 for S, 1.488 for M, 1.413 for L, 1.379 for XL, and 1.366 for XXL, demonstrating significant improvements across all model sizes. Our open-source code will be integrated into the SiD codebase.
- Abstract(参考訳): スコアアイデンティティ蒸留(Score Identity Distillation, SiD)は, トレーニングデータを必要としない事前学習拡散モデルのみを活用することにより, 画像生成におけるSOTA性能を達成したデータフリー手法である。
しかし、その最終的な性能は、事前訓練されたモデルが拡散過程の異なる段階で真のデータスコアをどれだけ正確に取得するかによって制約される。
本稿では,SiDA(SiD with Adversarial Loss)を紹介する。SiDは生成品質を向上するだけでなく,実画像と逆損失を取り入れることで蒸留効率を向上させる。
SiDAは、ジェネレータのスコアネットワークからのエンコーダを識別器として利用し、実際の画像とSiDによって生成されたものを識別する能力を向上する。
逆損失は各GPU内でバッチ正規化され、元のSiD損失と組み合わせられる。
この統合により、GPUバッチ当たりの平均的な"フェイクネス"をピクセルベースのSiD損失に効果的に組み込むことができ、SiDAは1ステップのジェネレータをスクラッチから、あるいは既存のものを微調整することで、蒸留することができる。
SiDAは、スクラッチから訓練された場合、前者よりもかなり早く収束し、前処理したSiDジェネレータの微調整中に最初のウォームアップ期間後に、元のモデルの性能を迅速に改善する。
CIFAR-10 (32x32) と ImageNet (64x64) で事前訓練されたEDM拡散モデルを蒸留し、画像Net 64x64 で FID スコアが 1.110 に達すると、その生成性能の新たなベンチマークが確立される。
ImageNet(512x512)でトレーニングされたEDM2モデルを蒸留すると、最大の教師モデルであるEDM2-XXLよりも低いFIDスコアが設定される。
結果,EMM2-XSは2.156点,Sは1.669点,Mは1.488点,Lは1.413点,XLは1.379点,XXLは1.366点であった。
私たちのオープンソースコードは、SiDコードベースに統合されます。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を示した。
本稿では,Score ID Distillation (SiD) の長短分類器フリーガイダンス (LSG) を開発し,事前学習した安定拡散モデルを効率的に蒸留することにより,Score ID Distillation (SiD) を強化する。
LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - Score Distillation via Reparametrized DDIM [14.754513907729878]
スコア蒸留サンプリングで用いられる画像誘導は, 2次元デノベーション生成過程の速度場として理解できることを示す。
本研究では,SDS更新ステップ毎にDDIMを反転させることにより,より優れたノイズ近似を復元可能であることを示す。
本手法は、他の最先端のスコア蒸留法と比較して、より良く、あるいは類似した3D生成品質を実現する。
論文 参考訳(メタデータ) (2024-05-24T19:22:09Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Directly Denoising Diffusion Models [6.109141407163027]
数ステップのサンプリングで現実的な画像を生成するための単純で汎用的なアプローチであるDDDM(Directly Denoising Diffusion Model)を提案する。
本モデルでは, CIFAR-10のFIDスコアを1段階, 2段階のサンプリングで2.57と2.33とし, GANと蒸留モデルから得られたFIDスコアをそれぞれ上回った。
ImageNet 64x64の場合、当社のアプローチは主要なモデルに対する競争相手として機能します。
論文 参考訳(メタデータ) (2024-05-22T11:20:32Z) - Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。
最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。
本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文 参考訳(メタデータ) (2024-04-06T09:03:18Z) - Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。
SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文 参考訳(メタデータ) (2024-04-05T12:30:19Z) - SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。
我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文 参考訳(メタデータ) (2024-03-25T11:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。