論文の概要: A Data Perspective on Enhanced Identity Preservation for Diffusion
Personalization
- arxiv url: http://arxiv.org/abs/2311.04315v1
- Date: Tue, 7 Nov 2023 19:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:55:27.770961
- Title: A Data Perspective on Enhanced Identity Preservation for Diffusion
Personalization
- Title(参考訳): 拡散パーソナライゼーションのためのアイデンティティ保護強化に関するデータ視点
- Authors: Xingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Helge Rhodin,
Ratheesh Kalarot
- Abstract要約: テキストと画像の両レベルで,新たな正規化データセット生成戦略を導入する。
改善された品質は、オーバーフィットやデジェネレーションなしに最大5倍の微調整のイテレーションを可能にすることで実現される。
我々は、画像の品質の観点から、我々のデータ中心のアプローチが新たな最先端技術を形成することを確立されたベンチマークで示している。
- 参考スコア(独自算出の注目度): 27.44202439317367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large text-to-image models have revolutionized the ability to generate
imagery using natural language. However, particularly unique or personal visual
concepts, such as your pet, an object in your house, etc., will not be captured
by the original model. This has led to interest in how to inject new visual
concepts, bound to a new text token, using as few as 4-6 examples. Despite
significant progress, this task remains a formidable challenge, particularly in
preserving the subject's identity. While most researchers attempt to to address
this issue by modifying model architectures, our approach takes a data-centric
perspective, advocating the modification of data rather than the model itself.
We introduce a novel regularization dataset generation strategy on both the
text and image level; demonstrating the importance of a rich and structured
regularization dataset (automatically generated) to prevent losing text
coherence and better identity preservation. The better quality is enabled by
allowing up to 5x more fine-tuning iterations without overfitting and
degeneration. The generated renditions of the desired subject preserve even
fine details such as text and logos; all while maintaining the ability to
generate diverse samples that follow the input text prompt. Since our method
focuses on data augmentation, rather than adjusting the model architecture, it
is complementary and can be combined with prior work. We show on established
benchmarks that our data-centric approach forms the new state of the art in
terms of image quality, with the best trade-off between identity preservation,
diversity, and text alignment.
- Abstract(参考訳): 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。
しかし、ペットや家のオブジェクトなど、特にユニークな、あるいは個人的な視覚的な概念は、オリジナルのモデルでは捉えられません。
これにより、新しい視覚概念を4-6例の例を使って新しいテキストトークンに縛り付ける方法に興味を持つようになった。
相当な進歩にもかかわらず、この課題は、特に被写体のアイデンティティを保つ上で大きな課題であり続けている。
ほとんどの研究者はモデルアーキテクチャを変更することでこの問題に対処しようとしますが、我々のアプローチはデータ中心の観点から、モデル自体よりもデータの変更を提唱しています。
本稿では,テキストと画像の両方に新しい正規化データセット生成戦略を導入し,テキストの一貫性を損なうことやアイデンティティの保存性を向上させるために,リッチで構造化された正規化データセット(自動生成)の重要性を示す。
改善された品質は、オーバーフィットやデジェネレーションなしに最大5倍の微調整のイテレーションを可能にすることで実現される。
所望の被写体のランディションは、入力テキストプロンプトに従う多様なサンプルを生成する能力を維持しながら、テキストやロゴなどの細部までも保持する。
本手法は,モデルアーキテクチャを調整せず,データ拡張に焦点を当てているため,補完的であり,事前作業と組み合わせることができる。
データ中心のアプローチが画像品質の面で新たな状態を形成し、アイデンティティの保存、多様性、テキストアライメントのトレードオフが最善であることを、確立されたベンチマークで示しています。
関連論文リスト
- Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。