論文の概要: CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.15677v2
- Date: Sat, 27 Apr 2024 14:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 20:19:52.594365
- Title: CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models
- Title(参考訳): characterFactory:拡散モデルのためのGANを用いた一貫性キャラクタのサンプリング
- Authors: Qinghe Wang, Baolu Li, Xiaomin Li, Bing Cao, Liqian Ma, Huchuan Lu, Xu Jia,
- Abstract要約: CharacterFactoryは、GANの潜伏空間で一貫したアイデンティティを持つ新しい文字をサンプリングできるフレームワークである。
モデルはトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングすることができる。
- 参考スコア(独自算出の注目度): 58.37569942713456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-image models have opened new frontiers in human-centric generation. However, these models cannot be directly employed to generate images with consistent newly coined identities. In this work, we propose CharacterFactory, a framework that allows sampling new characters with consistent identities in the latent space of GANs for diffusion models. More specifically, we consider the word embeddings of celeb names as ground truths for the identity-consistent generation task and train a GAN model to learn the mapping from a latent space to the celeb embedding space. In addition, we design a context-consistent loss to ensure that the generated identity embeddings can produce identity-consistent images in various contexts. Remarkably, the whole model only takes 10 minutes for training, and can sample infinite characters end-to-end during inference. Extensive experiments demonstrate excellent performance of the proposed CharacterFactory on character creation in terms of identity consistency and editability. Furthermore, the generated characters can be seamlessly combined with the off-the-shelf image/video/3D diffusion models. We believe that the proposed CharacterFactory is an important step for identity-consistent character generation. Project page is available at: https://qinghew.github.io/CharacterFactory/.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ・モデルの発展は、人中心世代における新たなフロンティアを開拓している。
しかし、これらのモデルは、一貫した新しいIDを持つ画像を生成するために直接利用することはできない。
本研究では,拡散モデルのためのGANの潜時空間における一貫した同一性を持つ新しい文字をサンプリングするフレームワークである characterFactory を提案する。
より具体的には、セレブ名の埋め込みという言葉をアイデンティティ一貫性のある生成タスクの基礎的真実とみなし、GANモデルを訓練して、潜在空間からセレブ埋め込み空間へのマッピングを学習する。
さらに、生成したアイデンティティ埋め込みが、様々なコンテキストにおいて、アイデンティティ一貫性のある画像を生成することができるように、コンテキスト一貫性損失を設計する。
注目すべきは、モデル全体がトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングできることだ。
広範囲な実験により, 文字生成におけるキャラクタファクトリーの性能は, アイデンティティの整合性と編集性に優れていた。
さらに、生成された文字は、オフザシェルフ画像/ビデオ/3D拡散モデルとシームレスに結合することができる。
我々は、提案した CharacterFactory が、アイデンティティ一貫性のある文字生成の重要なステップであると信じている。
プロジェクトページは、https://qinghew.github.io/CharacterFactory/.comで公開されている。
関連論文リスト
- Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation [10.652011707000202]
StoryMakerは、顔の整合性だけでなく、衣服、髪型、身体の整合性も保持するパーソナライズソリューションである。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
論文 参考訳(メタデータ) (2024-09-19T08:53:06Z) - Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。
既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-18T10:32:51Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。