論文の概要: JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2407.06187v1
- Date: Mon, 8 Jul 2024 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.018265
- Title: JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation
- Title(参考訳): JeDi: ファインタニングフリーの個人化テキスト・画像生成のための共同画像拡散モデル
- Authors: Yu Zeng, Vishal M. Patel, Haochen Wang, Xun Huang, Ting-Chun Wang, Ming-Yu Liu, Yogesh Balaji,
- Abstract要約: 既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
- 参考スコア(独自算出の注目度): 49.997839600988875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image generation models enable users to create images that depict their individual possessions in diverse scenes, finding applications in various domains. To achieve the personalization capability, existing methods rely on finetuning a text-to-image foundation model on a user's custom dataset, which can be non-trivial for general users, resource-intensive, and time-consuming. Despite attempts to develop finetuning-free methods, their generation quality is much lower compared to their finetuning counterparts. In this paper, we propose Joint-Image Diffusion (\jedi), an effective technique for learning a finetuning-free personalization model. Our key idea is to learn the joint distribution of multiple related text-image pairs that share a common subject. To facilitate learning, we propose a scalable synthetic dataset generation technique. Once trained, our model enables fast and easy personalization at test time by simply using reference images as input during the sampling process. Our approach does not require any expensive optimization process or additional modules and can faithfully preserve the identity represented by any number of reference images. Experimental results show that our model achieves state-of-the-art generation quality, both quantitatively and qualitatively, significantly outperforming both the prior finetuning-based and finetuning-free personalization baselines.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成モデルにより、ユーザーは様々な場面で個々の所有物を描いた画像を作成し、様々な領域のアプリケーションを見つけることができる。
パーソナライズ機能を実現するために、既存の手法では、ユーザのカスタムデータセットにテキスト・ツー・イメージの基礎モデルを微調整することに頼っている。
ファインタニングフリーな手法を開発しようとする試みにもかかわらず、その生成品質はファインタニングに比べてはるかに低い。
本稿では,ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法であるジョイントイメージ拡散(\jedi)を提案する。
我々の鍵となる考え方は、共通の主題を共有する複数の関連するテキストイメージペアの連成分布を学習することである。
学習を容易にするために,スケーラブルな合成データセット生成手法を提案する。
トレーニングが完了すると、サンプル処理中に参照イメージを入力として単純に使用することで、テスト時の高速かつ簡易なパーソナライズを可能にする。
当社のアプローチでは,コストのかかる最適化プロセスや追加モジュールは必要とせず,参照画像の数に代表されるアイデンティティを忠実に保存することができる。
実験結果から,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方を定量的に,質的にも質的にも,優れた生成品質が得られることが示された。
関連論文リスト
- Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models [66.05234562835136]
マルチオブジェクトパーソナライズを可能にする新しいフレームワークである MuDI を提案する。
本研究の主な目的は,セグメンテーションのための基礎モデルによって生成されたセグメンテーションの活用である。
実験結果から,MuDIは同一性ミキシングを伴わずに高品質なパーソナライズされたイメージを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-05T17:45:22Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Enhancing Detail Preservation for Customized Text-to-Image Generation: A
Regularization-Free Approach [43.53330622723175]
正規化を使わずにカスタマイズされたテキスト・画像生成のための新しいフレームワークを提案する。
提案したフレームワークでは,1つのGPU上で30分以内に大規模テキスト・画像生成モデルをカスタマイズできる。
論文 参考訳(メタデータ) (2023-05-23T01:14:53Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - InstantBooth: Personalized Text-to-Image Generation without Test-Time
Finetuning [20.127745565621616]
InstantBoothは、事前訓練されたテキスト・ツー・イメージモデルに基づく新しいアプローチである。
本モデルでは,言語画像のアライメント,画像の忠実度,アイデンティティの保存に関する未確認概念に関する競合的な結果を生成することができる。
論文 参考訳(メタデータ) (2023-04-06T23:26:38Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。