論文の概要: IdentityStory: Taming Your Identity-Preserving Generator for Human-Centric Story Generation
- arxiv url: http://arxiv.org/abs/2512.23519v1
- Date: Mon, 29 Dec 2025 14:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.550799
- Title: IdentityStory: Taming Your Identity-Preserving Generator for Human-Centric Story Generation
- Title(参考訳): IdentityStory: アイデンティティを保存するジェネレータを人間中心のストーリー生成に利用する
- Authors: Donghao Zhou, Jingyu Lin, Guibao Shen, Quande Liu, Jialin Gao, Lihao Liu, Lan Du, Cunjian Chen, Chi-Wing Fu, Xiaowei Hu, Pheng-Ann Heng,
- Abstract要約: IdentityStoryは人間中心のストーリー生成のためのフレームワークで、シーケンシャルな画像間で一貫した文字識別を保証する。
アイデンティティ保存ジェネレータを使用することで、フレームワークはIterative Identity DiscoveryとRe-denoising Identity Injectionという2つの重要なコンポーネントを備えている。
- 参考スコア(独自算出の注目度): 75.09818147405898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent visual generative models enable story generation with consistent characters from text, but human-centric story generation faces additional challenges, such as maintaining detailed and diverse human face consistency and coordinating multiple characters across different images. This paper presents IdentityStory, a framework for human-centric story generation that ensures consistent character identity across multiple sequential images. By taming identity-preserving generators, the framework features two key components: Iterative Identity Discovery, which extracts cohesive character identities, and Re-denoising Identity Injection, which re-denoises images to inject identities while preserving desired context. Experiments on the ConsiStory-Human benchmark demonstrate that IdentityStory outperforms existing methods, particularly in face consistency, and supports multi-character combinations. The framework also shows strong potential for applications such as infinite-length story generation and dynamic character composition.
- Abstract(参考訳): 最近の視覚生成モデルは、テキストから一貫した文字でストーリーを生成することができるが、人間中心のストーリー生成は、詳細で多様な人間の顔の一貫性を維持したり、異なる画像にまたがる複数の文字をコーディネートするといった、追加の課題に直面している。
本稿では,人間中心のストーリー生成のためのフレームワークであるIdentityStoryについて述べる。
アイデンティティ保存ジェネレータを使用すると、このフレームワークは2つの重要なコンポーネントを特徴付ける: イテレーティブアイデンティティディスカバリ(Iterative Identity Discovery)、イメージを再生成して、望ましいコンテキストを維持しながらIDを注入するID注入(Re-denoising Identity Injection)。
ConsiStory-Humanベンチマークの実験では、IdentityStoryは既存のメソッド、特に顔の一貫性に優れ、複数文字の組み合わせをサポートしている。
このフレームワークはまた、無限長のストーリー生成や動的文字合成といった応用にも強い可能性を示している。
関連論文リスト
- Storynizor: Consistent Story Generation via Inter-Frame Synchronized and Shuffled ID Injection [27.412361280397057]
本稿では,フレーム間キャラクタ一貫性の強いコヒーレントなストーリを生成するモデルであるStorynizorを紹介する。
Storynizorの主なイノベーションは、主要なモジュールであるID-SynchronizerとID-Injectorにある。
Storynizorのトレーニングを容易にするために、100,000の画像からなるStoryDBと呼ばれる新しいデータセットをキュレートした。
論文 参考訳(メタデータ) (2024-09-29T09:15:51Z) - StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation [10.652011707000202]
StoryMakerは、顔の整合性だけでなく、衣服、髪型、身体の整合性も保持するパーソナライズソリューションである。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
論文 参考訳(メタデータ) (2024-09-19T08:53:06Z) - Adversarial Identity Injection for Semantic Face Image Synthesis [6.763801424109435]
我々は、顔を生成するためにアイデンティティ、スタイル、セマンティック特徴をマージするクロスアテンション機構を利用するSISアーキテクチャを提案する。
実験結果から,提案手法は識別情報の保存に適するだけでなく,顔認識対向攻撃にも有効であることが判明した。
論文 参考訳(メタデータ) (2024-04-16T09:19:23Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency
and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。
2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文 参考訳(メタデータ) (2022-08-18T07:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。