論文の概要: Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks
- arxiv url: http://arxiv.org/abs/2405.19931v1
- Date: Thu, 30 May 2024 10:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 14:47:58.279279
- Title: Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks
- Title(参考訳): 有限ショット微調整およびベイズニューラルネットワークによる緩和における拡散モデルの破壊段階の探索
- Authors: Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan,
- Abstract要約: 拡散モデル(DM)の微調整は重要な進歩であり、トレーニングコストを大幅に削減し、パーソナライズされたAIアプリケーションを可能にする。
トレーニングプロセス中、画像の忠実度は最初改善され、ノイズパターンの出現によって予期せぬ劣化が生じるが、その後、重度のオーバーフィッティングで回復する。
生成したノイズパターンを汚損段階と表現し, 実験結果から, オブジェクト駆動および主観駆動の両方で生成した画像の忠実度, 品質, 多様性を著しく低下させることが実証された。
- 参考スコア(独自算出の注目度): 26.387044804861937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot fine-tuning of Diffusion Models (DMs) is a key advancement, significantly reducing training costs and enabling personalized AI applications. However, we explore the training dynamics of DMs and observe an unanticipated phenomenon: during the training process, image fidelity initially improves, then unexpectedly deteriorates with the emergence of noisy patterns, only to recover later with severe overfitting. We term the stage with generated noisy patterns as corruption stage. To understand this corruption stage, we begin by theoretically modeling the one-shot fine-tuning scenario, and then extend this modeling to more general cases. Through this modeling, we identify the primary cause of this corruption stage: a narrowed learning distribution inherent in the nature of few-shot fine-tuning. To tackle this, we apply Bayesian Neural Networks (BNNs) on DMs with variational inference to implicitly broaden the learned distribution, and present that the learning target of the BNNs can be naturally regarded as an expectation of the diffusion loss and a further regularization with the pretrained DMs. This approach is highly compatible with current few-shot fine-tuning methods in DMs and does not introduce any extra inference costs. Experimental results demonstrate that our method significantly mitigates corruption, and improves the fidelity, quality and diversity of the generated images in both object-driven and subject-driven generation tasks.
- Abstract(参考訳): 拡散モデル(DM)の微調整は重要な進歩であり、トレーニングコストを大幅に削減し、パーソナライズされたAIアプリケーションを可能にする。
しかし,DMのトレーニング力学を探求し,予期せぬ現象を観察する。トレーニング過程の間,画像の忠実度は最初改善され,ノイズパターンの出現とともに予期せぬ劣化が生じるが,その後,過度なオーバーフィッティングで回復する。
ノイズパターンが生じるステージを汚職ステージと表現する。
この汚職の段階を理解するために、理論的には1ショットの微調整シナリオをモデル化し、さらに一般的なケースに拡張する。
このモデリングにより、この汚職ステージの主な原因、すなわち、数発の微調整の性質に固有の絞り込み学習分布を同定する。
そこで本研究では,BNNの学習対象が拡散損失の期待と,事前訓練したDMとのさらなる正規化とを自然にみなすことが可能であることを,変分推論によるDMにベイズニューラルネットワーク(BNN)を適用して学習分布を暗黙的に拡大する。
このアプローチは、DMにおける現在の数発の微調整手法と互換性が高く、追加の推論コストを導入しない。
実験結果から,本手法は汚損を著しく軽減し,オブジェクト駆動および主観駆動の両方で生成した画像の忠実度,品質,多様性を向上することが示された。
関連論文リスト
- Slight Corruption in Pre-training Data Makes Better Diffusion Models [71.90034201302397]
拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
論文 参考訳(メタデータ) (2024-05-30T21:35:48Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Perturbing Attention Gives You More Bang for the Buck: Subtle Imaging Perturbations That Efficiently Fool Customized Diffusion Models [11.91784429717735]
疑似潜伏拡散モデル(LDM)に対する汎用的で効率的なアプローチであるCAATを提案する。
画像上の微妙な勾配が相互注意層に大きく影響し,テキストと画像のマッピングが変化することを示す。
実験により、CAATは多様な拡散モデルと互換性があり、ベースライン攻撃法より優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T14:31:15Z) - Robust Diffusion Models for Adversarial Purification [28.313494459818497]
拡散モデル(DM)に基づく対位法(AP)は、対位法トレーニング(AT)の最も強力な代替手段であることが示されている。
本稿では,事前訓練したDMとは独立に,敵対的指導を施した新しい頑健な逆過程を提案する。
この堅牢なガイダンスは、よりセマンティックなコンテンツを保持する純粋化された例を生成するだけでなく、DMの正確でロバストなトレードオフを軽減することができる。
論文 参考訳(メタデータ) (2024-03-24T08:34:08Z) - Model Will Tell: Training Membership Inference for Diffusion Models [15.16244745642374]
トレーニングメンバーシップ推論(TMI)タスクは、ターゲットモデルのトレーニングプロセスで特定のサンプルが使用されているかどうかを判断することを目的としている。
本稿では,拡散モデル内における本質的な生成先行情報を活用することで,TMIタスクの新たな視点を探求する。
論文 参考訳(メタデータ) (2024-03-13T12:52:37Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。