論文の概要: CharaConsist: Fine-Grained Consistent Character Generation
- arxiv url: http://arxiv.org/abs/2507.11533v1
- Date: Tue, 15 Jul 2025 17:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.213079
- Title: CharaConsist: Fine-Grained Consistent Character Generation
- Title(参考訳): CharaConsist:ファイングレードの一貫性キャラクタ生成
- Authors: Mengyu Wang, Henghui Ding, Jianing Peng, Yao Zhao, Yunpeng Chen, Yunchao Wei,
- Abstract要約: CharaConsistは、テキスト・ツー・イメージのDiTモデルに適した、最初の一貫した生成方法である。
CharaConsistは、フォアグラウンドとバックグラウンドの両方できめ細かい一貫性を実現する。
きめ細かい一貫性を維持する能力と、最新のベースモデルの容量を大きくすることで、高品質なビジュアル出力を生成することができる。
- 参考スコア(独自算出の注目度): 93.08900337098302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In text-to-image generation, producing a series of consistent contents that preserve the same identity is highly valuable for real-world applications. Although a few works have explored training-free methods to enhance the consistency of generated subjects, we observe that they suffer from the following problems. First, they fail to maintain consistent background details, which limits their applicability. Furthermore, when the foreground character undergoes large motion variations, inconsistencies in identity and clothing details become evident. To address these problems, we propose CharaConsist, which employs point-tracking attention and adaptive token merge along with decoupled control of the foreground and background. CharaConsist enables fine-grained consistency for both foreground and background, supporting the generation of one character in continuous shots within a fixed scene or in discrete shots across different scenes. Moreover, CharaConsist is the first consistent generation method tailored for text-to-image DiT model. Its ability to maintain fine-grained consistency, combined with the larger capacity of latest base model, enables it to produce high-quality visual outputs, broadening its applicability to a wider range of real-world scenarios. The source code has been released at https://github.com/Murray-Wang/CharaConsist
- Abstract(参考訳): テキスト・ツー・イメージ生成では、同一のアイデンティティを保持する一連の一貫性のあるコンテンツを生成することは、現実世界のアプリケーションにとって非常に有用である。
生成した被験者の整合性を高めるためのトレーニングフリー手法についていくつかの研究が行われてきたが、以下の問題に悩まされている。
まず、一貫性のあるバックグラウンドの詳細を維持することができず、適用性が制限される。
さらに、前景キャラクタが大きな動作変化を受けると、アイデンティティや衣服の詳細の不整合が明らかになる。
これらの問題に対処するために,CharaConsistを提案する。これは,点追跡注意と適応トークンのマージと,前景と背景の分離した制御を併用したものである。
CharaConsistは、フォアグラウンドとバックグラウンドの両方のきめ細かい一貫性を可能にし、固定されたシーン内の連続的なショットや、異なるシーンにわたる離散的なショットにおける1文字の生成をサポートする。
さらに、CharaConsistはテキスト・ツー・イメージのDiTモデルに適した最初の一貫した生成方法である。
きめ細かい一貫性を維持する能力と最新のベースモデルの容量を大きくすることで、高品質なビジュアルアウトプットを生成できるようになり、より広い現実世界のシナリオに適用性を広げることができます。
ソースコードはhttps://github.com/Murray-Wang/CharaConsistで公開されている。
関連論文リスト
- Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - Storybooth: Training-free Multi-Subject Consistency for Improved Visual Storytelling [5.713041172936274]
クロスフレームの自己アテンションは、自己アテンション計算中に各フレームのトークンが他のフレームのトークンに注意を払わせることによって、主観的一貫性を改善する。
本稿では,複数文字間の一貫性を確保する上で,自己意識の低下がさらに悪化していることを明らかにする。
これらの知見に触発されて,複数文字の整合性を改善するためのトレーニング不要アプローチであるStoryBoothを提案する。
論文 参考訳(メタデータ) (2025-04-08T08:30:55Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - StoryMaker: Towards Holistic Consistent Characters in Text-to-image Generation [10.652011707000202]
StoryMakerは、顔の整合性だけでなく、衣服、髪型、身体の整合性も保持するパーソナライズソリューションである。
StoryMakerは多くのアプリケーションをサポートし、他のソーシャルプラグインと互換性がある。
論文 参考訳(メタデータ) (2024-09-19T08:53:06Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。