論文の概要: Magic-Me: Identity-Specific Video Customized Diffusion
- arxiv url: http://arxiv.org/abs/2402.09368v2
- Date: Wed, 20 Mar 2024 17:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:38:31.063986
- Title: Magic-Me: Identity-Specific Video Customized Diffusion
- Title(参考訳): Magic-Me: アイデンティティに特化したビデオカスタマイズ拡散
- Authors: Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng,
- Abstract要約: 本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 72.05925155000165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating content with specified identities (ID) has attracted significant interest in the field of generative models. In the field of text-to-image generation (T2I), subject-driven creation has achieved great progress with the identity controlled via reference images. However, its extension to video generation is not well explored. In this work, we propose a simple yet effective subject identity controllable video generation framework, termed Video Custom Diffusion (VCD). With a specified identity defined by a few images, VCD reinforces the identity characteristics and injects frame-wise correlation at the initialization stage for stable video outputs. To achieve this, we propose three novel components that are essential for high-quality identity preservation and stable video generation: 1) a noise initialization method with 3D Gaussian Noise Prior for better inter-frame stability; 2) an ID module based on extended Textual Inversion trained with the cropped identity to disentangle the ID information from the background 3) Face VCD and Tiled VCD modules to reinforce faces and upscale the video to higher resolution while preserving the identity's features. We conducted extensive experiments to verify that VCD is able to generate stable videos with better ID over the baselines. Besides, with the transferability of the encoded identity in the ID module, VCD is also working well with personalized text-to-image models available publicly. The codes are available at https://github.com/Zhen-Dong/Magic-Me.
- Abstract(参考訳): 特定アイデンティティ(ID)によるコンテンツ作成は、生成モデル分野において大きな関心を集めている。
テキスト・ツー・イメージ生成(T2I)の分野では、参照画像によって制御されるアイデンティティによって、主観的生成は大きな進歩を遂げている。
しかし、ビデオ生成への拡張は十分に検討されていない。
本稿では,VCD(Video Custom Diffusion)と呼ばれる,シンプルながら効果的に個人識別を制御可能なビデオ生成フレームワークを提案する。
少数の画像で定義された特定IDを用いて、VCDはアイデンティティ特性を強化し、安定したビデオ出力のために初期化段階でフレームワイズ相関を注入する。
これを実現するために,高品質なアイデンティティ保存と安定したビデオ生成に不可欠な3つの新しいコンポーネントを提案する。
1) フレーム間安定性向上に先立つ3次元ガウス雑音による雑音初期化手法
2) 背景からID情報をアンタングルするために、収穫されたIDで訓練された拡張テクスチュアル・インバージョンに基づくIDモジュール
3) 顔のVCDモジュールとTiled VCDモジュールは、顔の強化と映像の高解像度化を図り、アイデンティティの特徴を保ちながら映像の高解像度化を実現している。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
さらに、IDモジュール内のエンコードされたアイデンティティの転送性により、VCDはパーソナライズされたテキスト・ツー・イメージ・モデルも公開している。
コードはhttps://github.com/Zhen-Dong/Magic-Me.comで公開されている。
関連論文リスト
- AnyMaker: Zero-shot General Object Customization via Decoupled Dual-Level ID Injection [72.41427550339296]
我々は,高ID忠実度とフレキシブルテキスト編集性を備えた汎用オブジェクトを生成するフレームワークであるAnyMakerを紹介する。
AnyMakerの有効性は、新しい一般ID抽出、二重レベルID注入、およびID認識デカップリングに起因している。
我々のアプローチを検証し、汎用オブジェクトのカスタマイズの研究を促進するため、我々は最初の大規模汎用IDデータセットを作成します。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。