論文の概要: PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction
- arxiv url: http://arxiv.org/abs/2406.05641v1
- Date: Sun, 9 Jun 2024 04:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:46:42.933127
- Title: PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction
- Title(参考訳): PaRa:パラメータランクの低減によるテキストと画像の拡散のパーソナライズ
- Authors: Shangyu Chen, Zizheng Pan, Jianfei Cai, Dinh Phung,
- Abstract要約: PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。
我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。
そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
- 参考スコア(独自算出の注目度): 38.424899483761656
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalizing a large-scale pretrained Text-to-Image (T2I) diffusion model is challenging as it typically struggles to make an appropriate trade-off between its training data distribution and the target distribution, i.e., learning a novel concept with only a few target images to achieve personalization (aligning with the personalized target) while preserving text editability (aligning with diverse text prompts). In this paper, we propose PaRa, an effective and efficient Parameter Rank Reduction approach for T2I model personalization by explicitly controlling the rank of the diffusion model parameters to restrict its initial diverse generation space into a small and well-balanced target space. Our design is motivated by the fact that taming a T2I model toward a novel concept such as a specific art style implies a small generation space. To this end, by reducing the rank of model parameters during finetuning, we can effectively constrain the space of the denoising sampling trajectories towards the target. With comprehensive experiments, we show that PaRa achieves great advantages over existing finetuning approaches on single/multi-subject generation as well as single-image editing. Notably, compared to the prevailing fine-tuning technique LoRA, PaRa achieves better parameter efficiency (2x fewer learnable parameters) and much better target image alignment.
- Abstract(参考訳): 大規模な事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルのパーソナライズは、トレーニングデータ分布とターゲット分布との適切なトレードオフ、すなわち、少数のターゲットイメージで新しい概念を学習し、(パーソナライズされたターゲットに合わせて)テキストの編集性を維持しながらパーソナライズ(パーソナライズされたターゲット)を達成するのに苦労しているため、難しい。
本稿では,T2Iモデルパーソナライズのための効果的かつ効率的なパラメータランク削減手法であるPaRaを提案し,拡散モデルパラメータのランクを明示的に制御し,初期多様な生成空間を小さくバランスの取れたターゲット空間に制限する。
我々のデザインは、T2Iモデルを特定の芸術スタイルのような新しい概念に応用することは、小さな世代空間を意味するという事実に動機づけられている。
この目的のために、ファインタニング中のモデルパラメータのランクを下げることにより、デノナイジングサンプリング軌跡のターゲットに対する空間を効果的に制限することができる。
包括的実験により、PaRaは、単一/複数オブジェクト生成における既存の微調整アプローチと、単一画像編集において大きな利点を享受できることが示されている。
特に、一般的な微調整技術であるLoRAと比較して、PaRaはより優れたパラメータ効率(2倍少ない学習可能なパラメータ)とより優れたターゲット画像アライメントを実現している。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Block-wise LoRA: Revisiting Fine-grained LoRA for Effective
Personalization and Stylization in Text-to-Image Generation [2.2356314962198836]
テキスト・ツー・イメージにおけるパーソナライズとスタイリゼーションの目的は,ユーザによって導入された新しい概念を分析し,それらを期待されるスタイルに組み込むために,事前学習した拡散モデルに指示することである。
SDの異なるブロックに対してきめ細かな微調整を行うブロックワイド低ランク適応(LoRA)を提案する。
論文 参考訳(メタデータ) (2024-03-12T10:38:03Z) - DiffuseKronA: A Parameter Efficient Fine-tuning Method for Personalized
Diffusion Models [46.58122934173729]
textbftextitDiffuseKronAは、対象駆動型テキスト・トゥ・イメージ(T2I)生成モデルのための製品ベースの適応モジュールである。
LoRA-DreamBoothとDreamBoothをそれぞれ35%、99.947%削減する。
LoRA-DreamBoothに匹敵する結果で最大50%の削減が達成できる。
論文 参考訳(メタデータ) (2024-02-27T11:05:34Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - SVDiff: Compact Parameter Space for Diffusion Fine-Tuning [19.978410014103435]
パーソナライズのための既存のテキスト・画像拡散モデルにおける制約に対処する新しいアプローチを提案する。
本手法は, 重み行列の特異値の微調整を伴い, コンパクトかつ効率的なパラメータ空間を導出する。
また、マルチオブジェクト画像生成の質を高めるためのカット・ミクス・Unmixデータ拡張手法と、簡単なテキストベースの画像編集フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:02Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。