論文の概要: MagicNaming: Consistent Identity Generation by Finding a "Name Space" in T2I Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.14902v1
- Date: Thu, 19 Dec 2024 14:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:10.977685
- Title: MagicNaming: Consistent Identity Generation by Finding a "Name Space" in T2I Diffusion Models
- Title(参考訳): MagicNaming: T2I拡散モデルに"名前空間"を見出すことによる一貫性のあるアイデンティティ生成
- Authors: Jing Zhao, Heliang Zheng, Chaoyue Wang, Long Lan, Wanrong Hunag, Yuhua Tang,
- Abstract要約: 空間内の任意の点が特定のアイデンティティに対応する「名前空間」の存在を探索する。
まず、拡散モデルのテキストエンコーダを用いて、Laion5Bデータセットにセレブの名前の埋め込みを抽出する。
このような名前の埋め込みは、生成した画像に優れたアイデンティティの整合性を約束するのに有効であることが実験的に確認された。
- 参考スコア(独自算出の注目度): 29.937693075899713
- License:
- Abstract: Large-scale text-to-image diffusion models, (e.g., DALL-E, SDXL) are capable of generating famous persons by simply referring to their names. Is it possible to make such models generate generic identities as simple as the famous ones, e.g., just use a name? In this paper, we explore the existence of a "Name Space", where any point in the space corresponds to a specific identity. Fortunately, we find some clues in the feature space spanned by text embedding of celebrities' names. Specifically, we first extract the embeddings of celebrities' names in the Laion5B dataset with the text encoder of diffusion models. Such embeddings are used as supervision to learn an encoder that can predict the name (actually an embedding) of a given face image. We experimentally find that such name embeddings work well in promising the generated image with good identity consistency. Note that like the names of celebrities, our predicted name embeddings are disentangled from the semantics of text inputs, making the original generation capability of text-to-image models well-preserved. Moreover, by simply plugging such name embeddings, all variants (e.g., from Civitai) derived from the same base model (i.e., SDXL) readily become identity-aware text-to-image models. Project homepage: \url{https://magicfusion.github.io/MagicNaming/}.
- Abstract(参考訳): 大規模テキスト・画像拡散モデル(例えば、DALL-E、SDXL)は、単に名前を参照するだけで有名人を生成できる。
そのようなモデルを、有名なもの、例えば、単に名前を使うのと同じくらい単純にジェネリックIDを生成することは可能ですか?
本稿では,空間内の任意の点が特定の同一性に対応する「名前空間」の存在について検討する。
幸いなことに、セレブの名前のテキスト埋め込みによって区切られた特徴空間には、いくつかの手がかりがある。
具体的には、まず、拡散モデルのテキストエンコーダを用いて、Laion5Bデータセットにセレブの名前の埋め込みを抽出する。
このような埋め込みは、与えられた顔画像の名前(実際には埋め込み)を予測するエンコーダを学ぶための監督として使用される。
このような名前の埋め込みは、生成した画像に優れたアイデンティティの整合性を約束するのに有効であることが実験的に確認された。
セレブの名前と同様に、予測された名前の埋め込みはテキスト入力のセマンティクスから切り離され、テキスト・ツー・イメージ・モデルのオリジナルの生成能力は保存されていることに注意してください。
さらに、そのような名前埋め込みを単純にプラグインすることで、同じベースモデル(SDXL)から派生したすべての変種(例えば、Civitai)は、容易に識別対応のテキスト・ツー・イメージモデルとなる。
プロジェクトのホームページ: \url{https://magicfusion.github.io/MagicNaming/}。
関連論文リスト
- CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models [58.37569942713456]
CharacterFactoryは、GANの潜伏空間で一貫したアイデンティティを持つ新しい文字をサンプリングできるフレームワークである。
モデルはトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングすることができる。
論文 参考訳(メタデータ) (2024-04-24T06:15:31Z) - Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Not with my name! Inferring artists' names of input strings employed by
Diffusion Models [8.692128987695423]
拡散モデル(DM)は、現実的で高品質な画像を生成するのに非常に効果的である。
しかし、これらのモデルは創造性に欠けており、単にトレーニングデータに基づいて出力を構成するだけである。
本稿では,生成画像の入力文字列におけるアーティスト名の使用確率を推定する予備的研究について述べる。
論文 参考訳(メタデータ) (2023-07-25T14:18:58Z) - Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors [40.959642112729234]
Peekabooは、ゼロショット、オープンボキャブラリ、教師なしセマンティックグラウンド技術である。
基礎となる拡散モデルがRGB画像でのみ訓練されているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-11-23T18:59:05Z) - Schr\"{o}dinger's Bat: Diffusion Models Sometimes Generate Polysemous
Words in Superposition [71.45263447328374]
近年の研究では、プロンプトが複数の意味を持つ単語を含む場合、テキストから画像への拡散モデルが奇妙な振る舞いを示すことが示されている。
2つの単語のエンコーディングの総和である入力を与えられた場合、このモデルは、この和に表される両方の概念を含む画像を生成することができることを示す。
次に,CLIPエンコーダを用いてプロンプトをエンコードし,意味の重ね合わせとして多文語をエンコードし,線形代数的手法を用いてこれらの表現を編集し,生成した画像に表される感覚に影響を与えることを示した。
論文 参考訳(メタデータ) (2022-11-23T16:26:49Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。