論文の概要: A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization
- arxiv url: http://arxiv.org/abs/2311.04315v4
- Date: Wed, 06 Nov 2024 05:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:20:51.961144
- Title: A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization
- Title(参考訳): 拡散パーソナライゼーションのためのアイデンティティ保護の強化に関するデータ展望
- Authors: Xingzhe He, Zhiwen Cao, Nicholas Kolkin, Lantao Yu, Kun Wan, Helge Rhodin, Ratheesh Kalarot,
- Abstract要約: 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。
これはテキスト・ツー・イメージ・モデルのパーソナライズ方法への関心につながった。
テキストと画像の両レベルで、新しい正規化データセット生成戦略を導入する。
- 参考スコア(独自算出の注目度): 25.56082131075747
- License:
- Abstract: Large text-to-image models have revolutionized the ability to generate imagery using natural language. However, particularly unique or personal visual concepts, such as pets and furniture, will not be captured by the original model. This has led to interest in how to personalize a text-to-image model. Despite significant progress, this task remains a formidable challenge, particularly in preserving the subject's identity. Most researchers attempt to address this issue by modifying model architectures. These methods are capable of keeping the subject structure and color but fail to preserve identity details. Towards this issue, our approach takes a data-centric perspective. We introduce a novel regularization dataset generation strategy on both the text and image level. This strategy enables the model to preserve fine details of the desired subjects, such as text and logos. Our method is architecture-agnostic and can be flexibly applied on various text-to-image models. We show on established benchmarks that our data-centric approach forms the new state of the art in terms of identity preservation and text alignment.
- Abstract(参考訳): 大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。
しかし、特にペットや家具のようなユニークな、あるいは個人的な視覚概念は、オリジナルのモデルでは捉えられない。
これはテキスト・ツー・イメージ・モデルのパーソナライズ方法への関心につながった。
かなりの進歩にもかかわらず、この課題は、特に被写体のアイデンティティを維持する上で、恐ろしい課題である。
ほとんどの研究者はモデルアーキテクチャを変更してこの問題に対処しようと試みている。
これらの手法は被写体の構造と色を保持できるが、識別の詳細を保存できない。
この問題に向けて、私たちのアプローチはデータ中心の視点を取ります。
テキストと画像の両レベルで,新たな正規化データセット生成戦略を導入する。
この戦略により、モデルはテキストやロゴなど、所望の主題の細部を保存できる。
本手法はアーキテクチャ非依存であり,様々なテキスト・イメージ・モデルに柔軟に適用可能である。
データ中心のアプローチが、アイデンティティの保存とテキストアライメントという観点から、新たな最先端技術を形成することを、確立されたベンチマークで示しています。
関連論文リスト
- Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance [20.430259028981094]
ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。
課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。
1) 画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存の両方において,テキストと主題のガイダンスの分離が不可欠である。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning [6.288699905490906]
本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。
提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
論文 参考訳(メタデータ) (2023-07-21T08:09:47Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。