論文の概要: IMAGE-ALCHEMY: Advancing subject fidelity in personalised text-to-image generation
- arxiv url: http://arxiv.org/abs/2505.10743v1
- Date: Thu, 15 May 2025 23:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.764686
- Title: IMAGE-ALCHEMY: Advancing subject fidelity in personalised text-to-image generation
- Title(参考訳): Image-ALCHEMY:パーソナライズされたテキスト・画像生成における主観的忠実度の向上
- Authors: Amritanshu Tiwari, Cherish Puniani, Kaustubh Sharma, Ojasva Nema,
- Abstract要約: テキスト・ツー・イメージ・モデルのパーソナライズという課題に対処する2段階のパイプラインを提案する。
まず、修正されていないSDXLを用いて、対象をクラスラベルに置き換えることで、ジェネリックシーンを生成する。
次に,パーソナライズされた被写体をセグメンテーション駆動型イメージ・トゥ・イメージ(Img2Img)パイプラインで選択的に挿入する。
SDXLのDINO類似度スコアは0.789であり、既存のパーソナライズされたテキスト・ツー・イメージのアプローチよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in text-to-image diffusion models, particularly Stable Diffusion, have enabled the generation of highly detailed and semantically rich images. However, personalizing these models to represent novel subjects based on a few reference images remains challenging. This often leads to catastrophic forgetting, overfitting, or large computational overhead.We propose a two-stage pipeline that addresses these limitations by leveraging LoRA-based fine-tuning on the attention weights within the U-Net of the Stable Diffusion XL (SDXL) model. First, we use the unmodified SDXL to generate a generic scene by replacing the subject with its class label. Then, we selectively insert the personalized subject through a segmentation-driven image-to-image (Img2Img) pipeline that uses the trained LoRA weights.This framework isolates the subject encoding from the overall composition, thus preserving SDXL's broader generative capabilities while integrating the new subject in a high-fidelity manner. Our method achieves a DINO similarity score of 0.789 on SDXL, outperforming existing personalized text-to-image approaches.
- Abstract(参考訳): テキスト・画像拡散モデルの最近の進歩、特に安定拡散は、高度に詳細でセマンティックにリッチな画像の生成を可能にしている。
しかし、これらのモデルをいくつかの参照画像に基づいて新しい主題を表現するためにパーソナライズすることは依然として困難である。
安定拡散XL(SDXL)モデルのU-Net内の注意重みをLoRAベースで微調整することにより,これらの制限に対処する2段階のパイプラインを提案する。
まず、修正されていないSDXLを用いて、対象をクラスラベルに置き換えることで、ジェネリックシーンを生成する。
次に、トレーニングされたLoRA重みを用いたセグメント化駆動画像合成(Img2Img)パイプラインを用いて、パーソナライズされた被写体を選択的に挿入する。このフレームワークは、被写体を全体構成から分離し、SDXLのより広い生成能力を保ちながら、新しい被写体を高忠実な方法で統合する。
SDXLのDINO類似度スコアは0.789であり、既存のパーソナライズされたテキスト・ツー・イメージのアプローチよりも優れている。
関連論文リスト
- DRC: Enhancing Personalized Image Generation via Disentangled Representation Composition [69.10628479553709]
大規模マルチモーダルモデル(LMM)を拡張した新しいパーソナライズされた画像生成フレームワークであるDRCを紹介する。
DRCは、履歴画像と参照画像から、ユーザスタイルの好みと意味的な意図をそれぞれ明示的に抽出する。
本研究は2つの重要な学習段階を包含する。1) スタイルと意味的特徴を明確に分離するために二重解離型学習を用い,難易度を考慮した再構成駆動型パラダイムを用いて最適化し,2) パーソナライズド・パーソナライズド・パーソナライズド・ジェネレーションを効果的に適用するパーソナライズド・モデリング。
論文 参考訳(メタデータ) (2025-04-24T08:10:10Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
ゼロショットパーソナライズされた画像生成モデルは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
既存の手法では、細かな被写体の詳細を捉えるのに苦労することが多く、一方のガイダンスを他方よりも優先することが多い。
EZIGenは、固定トレーニング済みのDiffusion UNet自体を主題エンコーダとして活用する。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - SDXL: Improving Latent Diffusion Models for High-Resolution Image
Synthesis [8.648456572970035]
テキスト・画像合成のための遅延拡散モデルSDXLを提案する。
以前のStable Diffusionと比較すると、SDXLはUNetの3倍のバックボーンを利用している。
従来の安定拡散法と比較すると,性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-07-04T23:04:57Z) - Continual Diffusion: Continual Customization of Text-to-Image Diffusion with C-LoRA [64.10981296843609]
近年のテクスト・ツー・イメージ・モデルの最先端のカスタマイズは,新しい概念が次々に現れると,破滅的な忘れ込みに悩まされることが示されている。
安定拡散モデルのクロスアテンション層における自己規則化低ランク適応を連続的に行う新しい手法であるC-LoRAを提案する。
C-LoRAは、提案したテキスト・ツー・イメージの連続的なカスタマイズ設定のベースラインよりも優れるだけでなく、画像分類のためのリハーサル不要な連続的な学習設定において、新しい最先端の学習を実現することを示します。
論文 参考訳(メタデータ) (2023-04-12T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。