論文の概要: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step
- arxiv url: http://arxiv.org/abs/2410.14919v4
- Date: Tue, 24 Dec 2024 05:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:10.994396
- Title: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step
- Title(参考訳): 対人スコア・アイデンティティ・蒸留 : 1ステップで教師を追い越す
- Authors: Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang,
- Abstract要約: 生成品質と蒸留効率を向上させるSiDA(SiD with Adversarial Loss)を導入する。
SiDAは実画像と敵対的損失を取り入れており、実画像とSiDによって生成された画像を区別することができる。
SiDAは、スクラッチから蒸留した場合、前者よりもかなり早く収束する。
- 参考スコア(独自算出の注目度): 64.53013367995325
- License:
- Abstract: Score identity Distillation (SiD) is a data-free method that has achieved SOTA performance in image generation by leveraging only a pretrained diffusion model, without requiring any training data. However, its ultimate performance is constrained by how accurate the pretrained model captures the true data scores at different stages of the diffusion process. In this paper, we introduce SiDA (SiD with Adversarial Loss), which not only enhances generation quality but also improves distillation efficiency by incorporating real images and adversarial loss. SiDA utilizes the encoder from the generator's score network as a discriminator, allowing it to distinguish between real images and those generated by SiD. The adversarial loss is batch-normalized within each GPU and then combined with the original SiD loss. This integration effectively incorporates the average "fakeness" per GPU batch into the pixel-based SiD loss, enabling SiDA to distill a single-step generator. SiDA converges significantly faster than its predecessor when distilled from scratch, and swiftly improves upon the original model's performance during fine-tuning from a pre-distilled SiD generator. This one-step adversarial distillation method establishes new benchmarks in generation performance when distilling EDM diffusion models, achieving FID scores of 1.110 on ImageNet 64x64. When distilling EDM2 models trained on ImageNet 512x512, our SiDA method surpasses even the largest teacher model, EDM2-XXL, which achieved an FID of 1.81 using classifier-free guidance (CFG) and 63 generation steps. In contrast, SiDA achieves FID scores of 2.156 for size XS, 1.669 for S, 1.488 for M, 1.413 for L, 1.379 for XL, and 1.366 for XXL, all without CFG and in a single generation step. These results highlight substantial improvements across all model sizes. Our code is available at https://github.com/mingyuanzhou/SiD/tree/sida.
- Abstract(参考訳): スコアアイデンティティ蒸留(Score Identity Distillation, SiD)は, トレーニングデータを必要としない事前学習拡散モデルのみを活用することにより, 画像生成におけるSOTA性能を達成したデータフリー手法である。
しかし、その最終的な性能は、事前訓練されたモデルが拡散過程の異なる段階で真のデータスコアをどれだけ正確に取得するかによって制約される。
本稿では,SiDA(SiD with Adversarial Loss)を紹介する。SiDは生成品質を向上するだけでなく,実画像と逆損失を取り入れることで蒸留効率を向上させる。
SiDAは、ジェネレータのスコアネットワークからのエンコーダを識別器として利用し、実際の画像とSiDによって生成されたものを区別する。
逆損失は各GPU内でバッチ正規化され、元のSiD損失と組み合わせられる。
この統合により、GPUバッチあたりの平均的な"フェイクネス"をピクセルベースのSiD損失に効果的に組み込むことができ、SiDAはシングルステップジェネレータを蒸留することができる。
SiDAは、スクラッチから蒸留した場合、前者よりもかなり早く収束し、あらかじめ蒸留したSiD発電機の微調整中に元のモデルの性能を迅速に改善する。
この一段階の逆蒸留法は、EDM拡散モデルを蒸留する際の生成性能の新たなベンチマークを確立し、ImageNet 64x64上でFIDスコア1.110を達成する。
ImageNet 512x512 でトレーニングした EDM2 モデルを蒸留すると,本手法は最大の教師モデルである EDM2-XXL を超え,CFG と63 生成ステップを用いて FID が 1.81 に達した。
一方、SiDAはサイズXSが2.156点、Sが1.669点、Mが1.488点、Lが1.413点、XLが1.379点、XXLが1.366点である。
これらの結果は、すべてのモデルサイズで大幅に改善されている。
私たちのコードはhttps://github.com/mingyuanzhou/SiD/tree/sida.comで利用可能です。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Guided Score identity Distillation for Data-Free One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を実証している。
本研究では, 実データにアクセスすることなく, 事前学習した拡散モデルの効率的な蒸留を可能にする, データフリーガイド蒸留法を提案する。
データフリー蒸留法は, 1ステップ生成装置で生成した合成画像のみをトレーニングすることにより, FIDとCLIPのスコアを急速に向上させ, 競争力のあるCLIPスコアを維持しつつ, 最先端のFID性能を実現する。
論文 参考訳(メタデータ) (2024-06-03T17:44:11Z) - Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。
DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。
提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文 参考訳(メタデータ) (2024-05-31T11:14:12Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。
SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文 参考訳(メタデータ) (2024-04-05T12:30:19Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。