論文の概要: FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes
- arxiv url: http://arxiv.org/abs/2402.18331v3
- Date: Tue, 4 Jun 2024 03:29:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:38:37.456947
- Title: FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes
- Title(参考訳): 微細拡散:1万のクラスで微細な画像生成のための拡散モデルのスケールアップ
- Authors: Ziying Pan, Kun Wang, Gang Li, Feihong He, Yongxuan Lai,
- Abstract要約: 我々は,1万のカテゴリからなる大規模きめ細粒度画像生成にスケールする大規模な事前学習拡散モデルに対して,FunDiffusionと呼ばれるパラメータ効率の戦略を提案する。
FineDiffusionは、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによって、トレーニングを著しく加速し、ストレージオーバーヘッドを低減する。
本稿では,特に細粒度分類に適したスーパークラス条件付きガイダンスを用いた,微細粒度画像生成のための新しいサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 8.838510307804427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The class-conditional image generation based on diffusion models is renowned for generating high-quality and diverse images. However, most prior efforts focus on generating images for general categories, e.g., 1000 classes in ImageNet-1k. A more challenging task, large-scale fine-grained image generation, remains the boundary to explore. In this work, we present a parameter-efficient strategy, called FineDiffusion, to fine-tune large pre-trained diffusion models scaling to large-scale fine-grained image generation with 10,000 categories. FineDiffusion significantly accelerates training and reduces storage overhead by only fine-tuning tiered class embedder, bias terms, and normalization layers' parameters. To further improve the image generation quality of fine-grained categories, we propose a novel sampling method for fine-grained image generation, which utilizes superclass-conditioned guidance, specifically tailored for fine-grained categories, to replace the conventional classifier-free guidance sampling. Compared to full fine-tuning, FineDiffusion achieves a remarkable 1.56x training speed-up and requires storing merely 1.77% of the total model parameters, while achieving state-of-the-art FID of 9.776 on image generation of 10,000 classes. Extensive qualitative and quantitative experiments demonstrate the superiority of our method compared to other parameter-efficient fine-tuning methods. The code and more generated results are available at our project website: https://finediffusion.github.io/.
- Abstract(参考訳): 拡散モデルに基づくクラス条件画像生成は高品質で多様な画像を生成することで有名である。
しかし、これまでのほとんどの取り組みは、イメージNet-1kの1000のクラスなど、一般的なカテゴリのイメージ生成に重点を置いていた。
より困難なタスク、大規模なきめ細かい画像生成は、探索すべき境界のままである。
本研究では,1万カテゴリの大規模きめ細かな画像生成にスケールする大規模事前学習拡散モデルに対して,ファインディフュージョン(FinDiffusion)と呼ばれるパラメータ効率のよい手法を提案する。
FineDiffusionは、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによって、トレーニングを著しく加速し、ストレージオーバーヘッドを低減する。
細粒度分類の画質向上を図るため,特に細粒度分類に特化しているスーパークラス条件付きガイダンスを用いて,従来の分類器不要のガイダンスを代替する,微細粒度画像生成のための新しいサンプリング手法を提案する。
フル微調整と比較すると、ファインディフュージョンは1.56倍のトレーニングスピードアップを達成し、総モデルのパラメータの1.77%しか保存せず、1万クラスの画像生成で9.776の最先端のFIDを達成する必要がある。
大規模定性的および定量的実験は,他のパラメータ効率の良い微調整法と比較して,本手法の優位性を示した。
コードとより生成された結果は、プロジェクトのWebサイト(https://finediffusion.github.io/)で公開されています。
関連論文リスト
- Diffusion Models Need Visual Priors for Image Generation [86.92260591389818]
Diffusion on Diffusion (DoD)は、先述したサンプルから視覚的先行情報を抽出し、拡散モデルのための豊富なガイダンスを提供する革新的な多段階生成フレームワークである。
我々は、人気のあるImageNet-$256 256$データセット上でDoDを評価し、SiTやDiTと比較して7$times$トレーニングコストを削減した。
私たちの最大のモデルであるDoD-XLは、FID-50Kスコアが1.83で、100万のトレーニングステップしか達成していません。
論文 参考訳(メタデータ) (2024-10-11T05:03:56Z) - Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Guiding a Diffusion Model with a Bad Version of Itself [35.61297232307485]
非条件モデルではなく、より小さく、訓練の少ないモデル自体を用いて、生成を誘導することで、画像品質の変動量を補うことなく、画像品質を制御できることを示す。
これによりImageNetの生成が大幅に改善され、64x64で1.01、公開ネットワークで512x512で1.25のFIDが設定された。
論文 参考訳(メタデータ) (2024-06-04T17:25:59Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。