論文の概要: FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention
- arxiv url: http://arxiv.org/abs/2305.10431v2
- Date: Sun, 21 May 2023 17:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:14:22.786116
- Title: FastComposer: Tuning-Free Multi-Subject Image Generation with Localized
Attention
- Title(参考訳): FastComposer: 局所的注意を伴うチューニング不要なマルチオブジェクト画像生成
- Authors: Guangxuan Xiao, Tianwei Yin, William T. Freeman, Fr\'edo Durand, Song
Han
- Abstract要約: 拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。
FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
- 参考スコア(独自算出の注目度): 37.58569261714206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models excel at text-to-image generation, especially in
subject-driven generation for personalized images. However, existing methods
are inefficient due to the subject-specific fine-tuning, which is
computationally intensive and hampers efficient deployment. Moreover, existing
methods struggle with multi-subject generation as they often blend features
among subjects. We present FastComposer which enables efficient, personalized,
multi-subject text-to-image generation without fine-tuning. FastComposer uses
subject embeddings extracted by an image encoder to augment the generic text
conditioning in diffusion models, enabling personalized image generation based
on subject images and textual instructions with only forward passes. To address
the identity blending problem in the multi-subject generation, FastComposer
proposes cross-attention localization supervision during training, enforcing
the attention of reference subjects localized to the correct regions in the
target images. Naively conditioning on subject embeddings results in subject
overfitting. FastComposer proposes delayed subject conditioning in the
denoising step to maintain both identity and editability in subject-driven
image generation. FastComposer generates images of multiple unseen individuals
with different styles, actions, and contexts. It achieves
300$\times$-2500$\times$ speedup compared to fine-tuning-based methods and
requires zero extra storage for new subjects. FastComposer paves the way for
efficient, personalized, and high-quality multi-subject image creation. Code,
model, and dataset are available at
https://github.com/mit-han-lab/fastcomposer.
- Abstract(参考訳): 拡散モデルは、特にパーソナライズされた画像の主題駆動生成において、テキストから画像への生成に優れている。
しかし、既存の手法は計算集約性が高く、効率的な配置を阻害する主題固有の微調整のため、非効率である。
また,既存の手法では,被写体間の特徴をブレンドすることが多いため,マルチサブジェクト生成に支障をきたす。
本稿では,テキストから画像への効率良く,パーソナライズされたテキスト対画像生成を実現するfastcomposerを提案する。
FastComposerは、画像エンコーダによって抽出された被写体埋め込みを使用して、拡散モデルにおける一般的なテキスト条件付けを強化する。
マルチオブジェクト生成におけるアイデンティティブレンディング問題に対処するため、FastComposerはトレーニング中に、対象画像内の正しい領域にローカライズされた参照対象の注意を集中させることにより、クロスアテンションなローカライゼーション監視を提案する。
被写体埋め込みのネイティブコンディショニングは被写体オーバーフィットをもたらす。
FastComposerは、被写体駆動画像生成におけるアイデンティティと編集性の両方を維持するために、遅延した被写体条件付けを提案する。
FastComposerは、異なるスタイル、アクション、コンテキストを持つ複数の見えない個人のイメージを生成する。
300$\times$-2500$\times$ speedupを微調整ベースの方法と比較して達成し、新しい被験者には追加ストレージを必要としない。
FastComposerは、効率的でパーソナライズされ、高品質なマルチオブジェクト画像作成の道を開く。
コード、モデル、データセットはhttps://github.com/mit-han-lab/fastcomposerで利用可能である。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Fast Personalized Text-to-Image Syntheses With Attention Injection [17.587109812987475]
生成した画像と参照画像のテキストイメージの一貫性とアイデンティティの整合性のバランスをとることができる有効かつ高速なアプローチを提案する。
本手法は,拡散モデル固有のテキスト・画像生成能力を保ちながら,微調整なしでパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-17T17:42:02Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion
Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。
1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-11T19:59:43Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Deep Image Compositing [93.75358242750752]
ユーザ入力なしで高品質の画像合成を自動生成する手法を提案する。
ラプラシアン・ピラミッド・ブレンディングにインスパイアされ、フォアグラウンドや背景画像からの情報を効果的に融合させるために、密結合型多ストリーム融合ネットワークが提案されている。
実験により,提案手法は高品質な合成物を自動生成し,定性的かつ定量的に既存手法より優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-11-04T06:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。