論文の概要: ReDiFine: Reusable Diffusion Finetuning for Mitigating Degradation in the Chain of Diffusion
- arxiv url: http://arxiv.org/abs/2407.17493v1
- Date: Thu, 4 Jul 2024 13:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 17:59:54.686469
- Title: ReDiFine: Reusable Diffusion Finetuning for Mitigating Degradation in the Chain of Diffusion
- Title(参考訳): ReDiFine: Reuseable Diffusion Finetuning for Mitigating Degradation in the Chain of Diffusion
- Authors: Youngseok Yoon, Dainong Hu, Iain Weissburg, Yao Qin, Haewon Jeong,
- Abstract要約: 拡散モデルは画像の生成モデリングにおいて著しく改善されている。
画像の品質はしきい値に達し、合成画像を再利用して機械学習モデルを再び訓練することができる。
本稿では,事前訓練されたテキスト・画像拡散モデルが,一連の合成画像を用いて反復的に微調整される現実的なシナリオに焦点を当てる。
- 参考スコア(独自算出の注目度): 10.159932782892865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved tremendous improvements in generative modeling for images, enabling high-quality generation that is indistinguishable by humans from real images. The qualities of images have reached a threshold at which we can reuse synthetic images for training machine learning models again. This attracts the area as it can relieve the high cost of data collection and fundamentally solve many problems in data-limited areas. In this paper, we focus on a practical scenario in which pretrained text-to-image diffusion models are iteratively finetuned using a set of synthetic images, which we call the Chain of Diffusion. Finetuned models generate images that are used for the next iteration of finetuning. We first demonstrate how these iterative processes result in severe degradation in image qualities. Thorough investigations reveal the most impactful factor for the degradation, and we propose finetuning and generation strategies that can effectively resolve the degradation. Our method, Reusable Diffusion Finetuning (ReDiFine), combines condition drop finetuning and CFG scheduling to maintain the qualities of generated images throughout iterations. ReDiFine works effectively for multiple datasets and models without further hyperparameter search, making synthetic images reusable to finetune future generative models.
- Abstract(参考訳): 拡散モデルは画像の生成モデリングにおいて著しく改善され、人間が実際の画像と区別できない高品質な生成を可能にした。
画像の品質はしきい値に達し、合成画像を再利用して機械学習モデルを再び訓練することができる。
これは、データ収集の高コストを軽減し、データ制限領域における多くの問題を根本的に解決できるため、この領域を惹きつける。
本稿では,事前学習したテキスト・画像拡散モデルが合成画像の集合を用いて反復的に微調整される現実的なシナリオに着目し,拡散の連鎖(Chain of Diffusion)と呼ぶ。
ファインチューニングされたモデルは、次のファインチューニングのイテレーションに使用されるイメージを生成する。
まず,これらの反復過程が画像品質を著しく低下させることを示す。
より詳細な調査により, 劣化の最も影響の大きい要因が明らかとなり, 劣化を効果的に解決できる微調整・生成戦略が提案される。
提案手法であるReuseable Diffusion Finetuning (ReDiFine) では,コンディションドロップの微調整とCFGスケジューリングを組み合わせることで,生成した画像の品質を反復的に維持する。
ReDiFineは、さらにハイパーパラメーター検索をすることなく、複数のデータセットやモデルに対して効果的に機能し、将来の生成モデルを微調整するために合成画像を再利用する。
関連論文リスト
- Photo-Realistic Image Restoration in the Wild with Controlled Vision-Language Models [14.25759541950917]
この研究は、能動的視覚言語モデルと合成分解パイプラインを活用して、野生(ワイルドIR)における画像復元を学習する。
我々の基底拡散モデルは画像復元SDE(IR-SDE)である。
論文 参考訳(メタデータ) (2024-04-15T12:34:21Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Nested Diffusion Processes for Anytime Image Generation [38.84966342097197]
そこで本研究では,任意の時間に任意の時間に停止した場合に,有効画像を生成することができるリアルタイム拡散法を提案する。
ImageNetとStable Diffusionを用いたテキスト・ツー・イメージ生成実験において,本手法の中間生成品質が元の拡散モデルよりも大幅に高いことを示す。
論文 参考訳(メタデータ) (2023-05-30T14:28:43Z) - DR2: Diffusion-based Robust Degradation Remover for Blind Face
Restoration [66.01846902242355]
ブラインド顔復元は通常、トレーニングのための事前定義された劣化モデルで劣化した低品質データを合成する。
トレーニングデータに現実のケースをカバーするために、あらゆる種類の劣化を含めることは、高価で実現不可能である。
本稿では、まず、劣化した画像を粗いが劣化不変な予測に変換し、次に、粗い予測を高品質な画像に復元するために拡張モジュールを使用するロバスト劣化再帰法(DR2)を提案する。
論文 参考訳(メタデータ) (2023-03-13T06:05:18Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Improved Autoregressive Modeling with Distribution Smoothing [106.14646411432823]
オートレグレッシブモデルは画像圧縮に優れていますが、そのサンプル品質はしばしば欠けています。
敵対的防御法の成功に触発されて,ランダム化平滑化を自己回帰的生成モデルに取り入れた。
論文 参考訳(メタデータ) (2021-03-28T09:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。