論文の概要: Magic-Me: Identity-Specific Video Customized Diffusion
- arxiv url: http://arxiv.org/abs/2402.09368v1
- Date: Wed, 14 Feb 2024 18:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:09:41.479286
- Title: Magic-Me: Identity-Specific Video Customized Diffusion
- Title(参考訳): Magic-Me: アイデンティティに特化したビデオカスタマイズ拡散
- Authors: Ze Ma, Daquan Zhou, Chun-Hsiao Yeh, Xue-She Wang, Xiuyu Li, Huanrui
Yang, Zhen Dong, Kurt Keutzer, Jiashi Feng
- Abstract要約: 本稿では,VCD(Video Custom Diffusion)と呼ばれる,シンプルで効果的な被写体識別制御可能なビデオ生成フレームワークを提案する。
そこで我々は,高品質なID保存に不可欠な3つの新しいコンポーネントを提案する。
そのシンプルさにもかかわらず、我々はVCDがより優れたIDで安定かつ高品質なビデオを生成することができることを検証するために広範な実験を行った。
- 参考スコア(独自算出の注目度): 74.76910331463162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating content for a specific identity (ID) has shown significant interest
in the field of generative models. In the field of text-to-image generation
(T2I), subject-driven content generation has achieved great progress with the
ID in the images controllable. However, extending it to video generation is not
well explored. In this work, we propose a simple yet effective subject identity
controllable video generation framework, termed Video Custom Diffusion (VCD).
With a specified subject ID defined by a few images, VCD reinforces the
identity information extraction and injects frame-wise correlation at the
initialization stage for stable video outputs with identity preserved to a
large extent. To achieve this, we propose three novel components that are
essential for high-quality ID preservation: 1) an ID module trained with the
cropped identity by prompt-to-segmentation to disentangle the ID information
and the background noise for more accurate ID token learning; 2) a
text-to-video (T2V) VCD module with 3D Gaussian Noise Prior for better
inter-frame consistency and 3) video-to-video (V2V) Face VCD and Tiled VCD
modules to deblur the face and upscale the video for higher resolution.
Despite its simplicity, we conducted extensive experiments to verify that VCD
is able to generate stable and high-quality videos with better ID over the
selected strong baselines. Besides, due to the transferability of the ID
module, VCD is also working well with finetuned text-to-image models available
publically, further improving its usability. The codes are available at
https://github.com/Zhen-Dong/Magic-Me.
- Abstract(参考訳): 特定のアイデンティティ(ID)のためのコンテンツを作成することは、生成モデル分野に大きな関心を示している。
text-to-image generation(t2i)の分野では、画像制御可能なidで主題駆動コンテンツ生成が大きな進歩を遂げている。
しかし、ビデオ生成への拡張は十分に検討されていない。
本稿では,VCD(Video Custom Diffusion)と呼ばれる,シンプルで効果的な対象識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像で定義された特定対象IDを用いて、VCDは、識別情報抽出を強化し、初期化段階でフレームワイズ相関を注入し、安定した映像出力とアイデンティティを大量に保持する。
そこで本稿では,高品質なid保存に不可欠な3つの新しいコンポーネントを提案する。
1) より正確なIDトークン学習のために、ID情報とバックグラウンドノイズをアンタングルするために、素早い隔離により、収穫されたIDで訓練されたIDモジュール
2) フレーム間の整合性の向上と3次元ガウスノイズを用いたテキスト・ツー・ビデオ(T2V)VCDモジュール
3) ビデオ・トゥ・ビデオ(V2V) Face VCDとTiled VCDモジュールは、高解像度で映像をアップスケールする。
その単純さにもかかわらず、我々はVCDが選択された強力なベースラインよりも優れたIDで安定かつ高品質なビデオを生成することができることを検証するために広範な実験を行った。
さらに、IDモジュールの転送性のため、VCDは、パブリックで利用可能な微調整されたテキスト・ツー・イメージモデルでもうまく機能し、ユーザビリティをさらに向上しています。
コードはhttps://github.com/Zhen-Dong/Magic-Meで入手できる。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
我々は、T2Vモデルにより合成されたビデオを直接監視する、textbfPersonalVideoと呼ばれる新しいフレームワークを提案する。
本手法は,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する上での優位性であり,従来手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。