論文の概要: Block-wise LoRA: Revisiting Fine-grained LoRA for Effective
Personalization and Stylization in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2403.07500v1
- Date: Tue, 12 Mar 2024 10:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:02:55.137430
- Title: Block-wise LoRA: Revisiting Fine-grained LoRA for Effective
Personalization and Stylization in Text-to-Image Generation
- Title(参考訳): block-wise lora: テキスト対画像生成における効果的なパーソナライゼーションとスタイライゼーションのための細粒度ローラの再検討
- Authors: Likun Li, Haoqi Zeng, Changpeng Yang, Haozhe Jia, Di Xu
- Abstract要約: テキスト・ツー・イメージにおけるパーソナライズとスタイリゼーションの目的は,ユーザによって導入された新しい概念を分析し,それらを期待されるスタイルに組み込むために,事前学習した拡散モデルに指示することである。
SDの異なるブロックに対してきめ細かな微調整を行うブロックワイド低ランク適応(LoRA)を提案する。
- 参考スコア(独自算出の注目度): 2.2356314962198836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The objective of personalization and stylization in text-to-image is to
instruct a pre-trained diffusion model to analyze new concepts introduced by
users and incorporate them into expected styles. Recently, parameter-efficient
fine-tuning (PEFT) approaches have been widely adopted to address this task and
have greatly propelled the development of this field. Despite their popularity,
existing efficient fine-tuning methods still struggle to achieve effective
personalization and stylization in T2I generation. To address this issue, we
propose block-wise Low-Rank Adaptation (LoRA) to perform fine-grained
fine-tuning for different blocks of SD, which can generate images faithful to
input prompts and target identity and also with desired style. Extensive
experiments demonstrate the effectiveness of the proposed method.
- Abstract(参考訳): テキストから画像へのパーソナライゼーションとスタイライゼーションの目的は、事前訓練された拡散モデルに、ユーザによって導入された新しい概念を分析し、それらを期待されるスタイルに組み込むように指示することである。
近年,この課題に対処するためのパラメータ効率細調整(PEFT)アプローチが広く採用され,この分野の発展に大きく寄与している。
その人気にもかかわらず、既存の効率的な微調整手法はT2I世代において効果的なパーソナライズとスタイリングを達成するのに依然として苦労している。
そこで本稿では,sdの異なるブロックに対して,入力プロンプトやターゲットidに忠実な画像を生成するための細粒度細粒度調整を行うブロックワイズ低ランク適応 (lora) を提案する。
大規模実験により提案手法の有効性が示された。
関連論文リスト
- DiffLoRA: Generating Personalized Low-Rank Adaptation Weights with Diffusion [43.55179971287028]
DiffLoRAは、拡散モデルをハイパーネットワークとして活用し、パーソナライズされた低ランク適応重みを予測できる効率的な手法である。
これらのLoRA重みをオフザシェルのテキスト・ツー・イメージモデルに組み込むことで、推論中にゼロショットのパーソナライズが可能になる。
本稿では、DiffLoRAのトレーニングプロセスを容易にするために、新しいアイデンティティ指向のLoRA重み付けパイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-13T09:00:35Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction [38.424899483761656]
PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。
我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。
そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
論文 参考訳(メタデータ) (2024-06-09T04:51:51Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。