Fugu-MT 論文翻訳(概要): Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step

論文の概要: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step

arxiv url: http://arxiv.org/abs/2410.14919v3
Date: Wed, 20 Nov 2024 17:20:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.773347
Title: Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step
Title（参考訳）: 対人スコア・アイデンティティ・蒸留 : 1ステップで教師を追い越す
Authors: Mingyuan Zhou, Huangjie Zheng, Yi Gu, Zhendong Wang, Hai Huang,
Abstract要約: アイデンティティ蒸留(SiD)は、事前訓練された拡散モデルのみを活用することにより、画像生成におけるSOTA性能を達成したデータフリー手法である。我々は,SiDA (SiD with Adversarial Loss)を導入し, 生成品質の向上だけでなく, 実画像と逆損失を取り入れて蒸留効率を向上させる。
参考スコア（独自算出の注目度）: 64.53013367995325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Score identity Distillation (SiD) is a data-free method that has achieved SOTA performance in image generation by leveraging only a pretrained diffusion model, without requiring any training data. However, its ultimate performance is constrained by how accurate the pretrained model captures the true data scores at different stages of the diffusion process. In this paper, we introduce SiDA (SiD with Adversarial Loss), which not only enhances generation quality but also improves distillation efficiency by incorporating real images and adversarial loss. SiDA utilizes the encoder from the generator's score network as a discriminator, boosting its ability to distinguish between real images and those generated by SiD. The adversarial loss is batch-normalized within each GPU and then combined with the original SiD loss. This integration effectively incorporates the average "fakeness" per GPU batch into the pixel-based SiD loss, enabling SiDA to distill a single-step generator either from scratch or by fine-tuning an existing one. SiDA converges significantly faster than its predecessor when trained from scratch, and swiftly improves upon the original model's performance after an initial warmup period during fine-tuning from a pre-distilled SiD generator. This one-step adversarial distillation method establishes new benchmarks in generation performance when distilling EDM diffusion models pretrained on CIFAR-10 (32x32) and ImageNet (64x64), achieving FID score of 1.110 on ImageNet 64x64. It sets record-low FID scores when distilling EDM2 models trained on ImageNet (512x512), surpassing even the largest teacher model, EDM2-XXL. Our SiDA's results record FID scores of 2.156 for EDM2-XS, 1.669 for S, 1.488 for M, 1.413 for L, 1.379 for XL, and 1.366 for XXL, demonstrating significant improvements across all model sizes. Our open-source code will be integrated into the SiD codebase.
Abstract（参考訳）: スコアアイデンティティ蒸留(Score Identity Distillation, SiD)は, トレーニングデータを必要としない事前学習拡散モデルのみを活用することにより, 画像生成におけるSOTA性能を達成したデータフリー手法である。しかし、その最終的な性能は、事前訓練されたモデルが拡散過程の異なる段階で真のデータスコアをどれだけ正確に取得するかによって制約される。本稿では,SiDA(SiD with Adversarial Loss)を紹介する。SiDは生成品質を向上するだけでなく,実画像と逆損失を取り入れることで蒸留効率を向上させる。 SiDAは、ジェネレータのスコアネットワークからのエンコーダを識別器として利用し、実際の画像とSiDによって生成されたものを識別する能力を向上する。逆損失は各GPU内でバッチ正規化され、元のSiD損失と組み合わせられる。この統合により、GPUバッチ当たりの平均的な"フェイクネス"をピクセルベースのSiD損失に効果的に組み込むことができ、SiDAは1ステップのジェネレータをスクラッチから、あるいは既存のものを微調整することで、蒸留することができる。 SiDAは、スクラッチから訓練された場合、前者よりもかなり早く収束し、前処理したSiDジェネレータの微調整中に最初のウォームアップ期間後に、元のモデルの性能を迅速に改善する。 CIFAR-10 (32x32) と ImageNet (64x64) で事前訓練されたEDM拡散モデルを蒸留し、画像Net 64x64 で FID スコアが 1.110 に達すると、その生成性能の新たなベンチマークが確立される。 ImageNet(512x512)でトレーニングされたEDM2モデルを蒸留すると、最大の教師モデルであるEDM2-XXLよりも低いFIDスコアが設定される。結果,EMM2-XSは2.156点,Sは1.669点,Mは1.488点,Lは1.413点,XLは1.379点,XXLは1.366点であった。私たちのオープンソースコードは、SiDコードベースに統合されます。

関連論文リスト

MGD$^3$: Mode-Guided Dataset Distillation using Diffusion Models [50.2406741245418]
本稿では,事前学習した拡散モデルを利用したモード誘導拡散モデルを提案する。提案手法は,異なるデータモードを識別するモード発見,クラス内多様性を高めるモード誘導,および合成試料中のアーティファクトを緩和するモード誘導という3段階のデータセットの多様性に対処する。本手法は, 蒸留損失を伴う微調整拡散モデルの必要性を排除し, 計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-05-25T03:40:23Z)
Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
Autoregressive Distillation of Diffusion Transformers [18.19070958829772]
本稿では,ODEの歴史的軌道を利用して将来のステップを予測する新しい手法であるAutoRegressive Distillation (ARD)を提案する。 ARDには2つの大きな利点がある: 1) 蓄積されたエラーに弱い予測された履歴軌跡を利用することにより露出バイアスを緩和し、2) ODE軌跡の過去の履歴をより効果的な粗い情報源として活用する。このモデルでは,ImageNet-256でFLOPを1.1%追加するだけで,ベースライン法に比べてFID劣化の5倍の低減を実現している。
論文参考訳（メタデータ） (2025-04-15T15:33:49Z)
One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。 SIMはワンステップジェネレータに対して強い経験的性能を示す。リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文参考訳（メタデータ） (2024-10-22T08:17:20Z)
Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。我々はECCV 2024 DD Challengeで3位となった。
論文参考訳（メタデータ） (2024-08-16T08:52:02Z)
Long and Short Guidance in Score identity Distillation for One-Step Text-to-Image Generation [62.30570286073223]
拡散に基づくテキスト・画像生成モデルは、テキスト記述と整合した画像を生成する能力を示した。本稿では,Score ID Distillation (SiD) の長短分類器フリーガイダンス (LSG) を開発し,事前学習した安定拡散モデルを効率的に蒸留することにより,Score ID Distillation (SiD) を強化する。 LSGを備えたSiDは、FIDとCLIPのスコアを急速に改善し、競争力のあるCLIPスコアを維持しながら最先端のFIDのパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-03T17:44:11Z)
Diffusion Models Are Innate One-Step Generators [2.3359837623080613]
拡散モデル(DM)は優れた高品質な結果をもたらす。 DMの層は異なる時間ステップで微分活性化され、単一のステップで画像を生成する固有の能力をもたらす。提案手法は, CIFAR-10, AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。
論文参考訳（メタデータ） (2024-05-31T11:14:12Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
Diffusion Time-step Curriculum for One Image to 3D Generation [91.07638345953016]
テキストバッフル画像から3Dオブジェクトを再構成する際の見知らぬ視点の欠如を克服するために,スコア蒸留サンプリング(SDS)が広く採用されている。最適化中の拡散時間ステップの無差別な処理方法として,クルックスが見過ごされていることが判明した。本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline (DTC123)を提案する。
論文参考訳（メタデータ） (2024-04-06T09:03:18Z)
Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。 SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文参考訳（メタデータ） (2024-04-05T12:30:19Z)
SDXS: Real-Time One-Step Latent Diffusion Models with Image Conditions [5.100085108873068]
SDXS-512 と SDXS-1024 の2つのモデルを示し,1つのGPU上で約100 FPS (SD v1.5 より30倍速い) と30 FPS (SDXLより60倍速い) の推論速度を実現する。我々のトレーニングアプローチは、画像条件付き制御に有望な応用を提供し、画像間の効率的な翻訳を容易にする。
論文参考訳（メタデータ） (2024-03-25T11:16:23Z)
ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文参考訳（メタデータ） (2023-11-23T16:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。