論文の概要: CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.15677v1
- Date: Wed, 24 Apr 2024 06:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:59:40.957556
- Title: CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models
- Title(参考訳): characterFactory:拡散モデルのためのGANを用いた一貫性キャラクタのサンプリング
- Authors: Qinghe Wang, Baolu Li, Xiaomin Li, Bing Cao, Liqian Ma, Huchuan Lu, Xu Jia,
- Abstract要約: CharacterFactoryは、GANの潜伏空間で一貫したアイデンティティを持つ新しい文字をサンプリングできるフレームワークである。
モデルはトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングすることができる。
- 参考スコア(独自算出の注目度): 58.37569942713456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image models have opened new frontiers in human-centric generation. However, these models cannot be directly employed to generate images with consistent newly coined identities. In this work, we propose CharacterFactory, a framework that allows sampling new characters with consistent identities in the latent space of GANs for diffusion models. More specifically, we consider the word embeddings of celeb names as ground truths for the identity-consistent generation task and train a GAN model to learn the mapping from a latent space to the celeb embedding space. In addition, we design a context-consistent loss to ensure that the generated identity embeddings can produce identity-consistent images in various contexts. Remarkably, the whole model only takes 10 minutes for training, and can sample infinite characters end-to-end during inference. Extensive experiments demonstrate excellent performance of the proposed CharacterFactory on character creation in terms of identity consistency and editability. Furthermore, the generated characters can be seamlessly combined with the off-the-shelf image/video/3D diffusion models. We believe that the proposed CharacterFactory is an important step for identity-consistent character generation. Project page is available at: https://qinghew.github.io/CharacterFactory/.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・モデルの発展は、人中心世代における新たなフロンティアを開拓している。
しかし、これらのモデルは、一貫した新しいIDを持つ画像を生成するために直接利用することはできない。
本研究では,拡散モデルのためのGANの潜時空間における一貫した同一性を持つ新しい文字をサンプリングするフレームワークである characterFactory を提案する。
より具体的には、セレブ名の埋め込みという言葉をアイデンティティ一貫性のある生成タスクの基礎的真実とみなし、GANモデルを訓練して、潜在空間からセレブ埋め込み空間へのマッピングを学習する。
さらに、生成したアイデンティティ埋め込みが、様々なコンテキストにおいて、アイデンティティ一貫性のある画像を生成することができるように、コンテキスト一貫性損失を設計する。
注目すべきは、モデル全体がトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングできることだ。
広範囲な実験により, 文字生成におけるキャラクタファクトリーの性能は, アイデンティティの整合性と編集性に優れていた。
さらに、生成された文字は、オフザシェルフ画像/ビデオ/3D拡散モデルとシームレスに結合することができる。
我々は、提案した CharacterFactory が、アイデンティティ一貫性のある文字生成の重要なステップであると信じている。
プロジェクトページは、https://qinghew.github.io/CharacterFactory/.comで公開されている。
関連論文リスト
- Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [74.21603256043355]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - ExFaceGAN: Exploring Identity Directions in GAN's Learned Latent Space
for Synthetic Identity Generation [16.494722503803196]
本稿では,事前学習したGANの潜在空間における識別情報をアンタングル化するフレームワークであるExFaceGANを提案する。
境界の両側からサンプリングすることで、ExFaceGANは複数の合成アイデンティティのサンプルを生成することができる。
例えば、ExFaceGANが生成したデータが顔認識モデルのトレーニングに有効であることを実証的に証明する。
論文 参考訳(メタデータ) (2023-07-11T10:14:41Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。