論文の概要: SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
- arxiv url: http://arxiv.org/abs/2303.11305v1
- Date: Mon, 20 Mar 2023 17:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 14:13:28.929563
- Title: SVDiff: Compact Parameter Space for Diffusion Fine-Tuning
- Title(参考訳): SVDiff:拡散微細調整のためのコンパクトパラメータ空間
- Authors: Ligong Han, Yinxiao Li, Han Zhang, Peyman Milanfar, Dimitris Metaxas,
Feng Yang
- Abstract要約: パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。
本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。
また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.978410014103435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in text-to-image
generation, enabling the creation of high-quality images from text prompts or
other modalities. However, existing methods for customizing these models are
limited by handling multiple personalized subjects and the risk of overfitting.
Moreover, their large number of parameters is inefficient for model storage. In
this paper, we propose a novel approach to address these limitations in
existing text-to-image diffusion models for personalization. Our method
involves fine-tuning the singular values of the weight matrices, leading to a
compact and efficient parameter space that reduces the risk of overfitting and
language-drifting. We also propose a Cut-Mix-Unmix data-augmentation technique
to enhance the quality of multi-subject image generation and a simple
text-based image editing framework. Our proposed SVDiff method has a
significantly smaller model size (1.7MB for StableDiffusion) compared to
existing methods (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB), making it
more practical for real-world applications.
- Abstract(参考訳): 拡散モデルは、テキストから画像への生成において著しく成功し、テキストプロンプトや他のモダリティから高品質な画像を生成することができる。
しかし、これらのモデルをカスタマイズするための既存の方法は、複数のパーソナライズされた主題と過剰適合のリスクを扱うことで制限されている。
さらに、その大量のパラメータはモデルストレージに非効率である。
本稿では,既存のテキスト・画像拡散モデルにおけるパーソナライゼーションの制約に対処するための新しい手法を提案する。
本手法は, 重み行列の特異値の微調整を伴い, オーバーフィットや言語ドリフトのリスクを低減する, コンパクトかつ効率的なパラメータ空間を実現する。
また,マルチサブジェクト画像生成の品質を向上させるためのカット・ミックス・アンミックスデータ提示手法と,簡易テキストベースの画像編集フレームワークを提案する。
提案するSVDiff法は,既存手法 (vanilla DreamBooth 3.66GB, Custom Diffusion 73MB) に比べてモデルサイズが大幅に小さく,現実のアプリケーションではより実用的である。
関連論文リスト
- DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion
Models [18.36484757267787]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Matryoshka Diffusion Models [41.05745850547664]
拡散モデルは、高品質の画像やビデオを生成するデファクトアプローチである。
本稿では,高解像度画像とビデオ合成のためのエンドツーエンドフレームワークであるMatryoshka Diffusion Modelsを紹介する。
本稿では,クラス条件付き画像生成,高解像度テキスト・ツー・イメージ,テキスト・ツー・ビデオアプリケーションなど,様々なベンチマークにおけるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2023-10-23T17:20:01Z) - Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size
HD Images [56.17404812357676]
テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば構成問題に遭遇する。
そこで我々は,任意の大きさの画像を効率よく生成するために,Any-Size-Diffusion (ASD) という2段階のパイプラインを提案する。
ASDは任意のサイズの画像を生成することができ、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることを示す。
論文 参考訳(メタデータ) (2023-08-31T09:27:56Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion
with C-LoRA [73.25715057309768]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。