論文の概要: StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
- arxiv url: http://arxiv.org/abs/2409.12576v1
- Date: Thu, 19 Sep 2024 08:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:19:13.550544
- Title: StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation
- Title(参考訳): StoryMaker: テキスト・ツー・イメージ・ジェネレーションにおけるホロスティックな一貫性のあるキャラクタを目指して
- Authors: Zhengguang Zhou, Jing Li, Huaxia Li, Nemo Chen, Xu Tang,
- Abstract要約: StoryMakerは、顔の整合性だけでなく、衣服、髪型、身体の整合性も保持するパーソナライズソリューションである。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
- 参考スコア(独自算出の注目度): 10.652011707000202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tuning-free personalized image generation methods have achieved significant success in maintaining facial consistency, i.e., identities, even with multiple characters. However, the lack of holistic consistency in scenes with multiple characters hampers these methods' ability to create a cohesive narrative. In this paper, we introduce StoryMaker, a personalization solution that preserves not only facial consistency but also clothing, hairstyles, and body consistency, thus facilitating the creation of a story through a series of images. StoryMaker incorporates conditions based on face identities and cropped character images, which include clothing, hairstyles, and bodies. Specifically, we integrate the facial identity information with the cropped character images using the Positional-aware Perceiver Resampler (PPR) to obtain distinct character features. To prevent intermingling of multiple characters and the background, we separately constrain the cross-attention impact regions of different characters and the background using MSE loss with segmentation masks. Additionally, we train the generation network conditioned on poses to promote decoupling from poses. A LoRA is also employed to enhance fidelity and quality. Experiments underscore the effectiveness of our approach. StoryMaker supports numerous applications and is compatible with other societal plug-ins. Our source codes and model weights are available at https://github.com/RedAIGC/StoryMaker.
- Abstract(参考訳): チューニング不要なパーソナライズされた画像生成手法は、顔の一貫性、すなわち複数の文字であってもアイデンティティを維持することに成功している。
しかし、複数のキャラクタを持つシーンにおける全体的一貫性の欠如は、これらの手法が結束的な物語を作る能力を損なう。
本稿では,顔の整合性だけでなく,衣服,髪型,身体の整合性も保持し,一連の画像によるストーリー作成を容易にする,個人化ソリューションであるStoryMakerを紹介する。
StoryMakerは、顔のアイデンティティと、衣服、髪型、体を含むクロップされたキャラクターイメージに基づく条件を取り入れている。
具体的には,PPR(Pightal-aware Perceiver Resampler)を用いて,顔の識別情報を収集した人物画像と統合し,特徴を識別する。
複数文字と背景の混在を防止するため,分割マスクを用いたMSE損失を用いて,異なる文字と背景のクロスアテンション影響領域を別々に制限する。
さらに、ポーズから疎結合を促進するために、ポーズに条件付けされた世代ネットワークを訓練する。
LoRAはまた、忠実さと品質を高めるためにも使用されている。
実験は我々のアプローチの有効性を浮き彫りにした。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
ソースコードとモデルウェイトはhttps://github.com/RedAIGC/StoryMaker.comで公開されています。
関連論文リスト
- Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - CharacterFactory: Sampling Consistent Characters with GANs for Diffusion Models [58.37569942713456]
CharacterFactoryは、GANの潜伏空間で一貫したアイデンティティを持つ新しい文字をサンプリングできるフレームワークである。
モデルはトレーニングに10分しかかからず、推論中に無限の文字をエンドツーエンドにサンプリングすることができる。
論文 参考訳(メタデータ) (2024-04-24T06:15:31Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - StyO: Stylize Your Face in Only One-Shot [8.253458555695767]
本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。
このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。
上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
論文 参考訳(メタデータ) (2023-03-06T15:48:33Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StyleMask: Disentangling the Style Space of StyleGAN2 for Neural Face
Reenactment [47.27033282706179]
本研究では,顔の特徴をそのポーズから切り離すフレームワークを提案する。
提案手法は, 極端なポーズ変動であっても, 高品質な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-27T13:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。