論文の概要: PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation
- arxiv url: http://arxiv.org/abs/2411.17048v2
- Date: Sun, 16 Mar 2025 01:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:32:09.783619
- Title: PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation
- Title(参考訳): PersonalVideo: ダイナミックでセマンティックな劣化のない高精細度ビデオのカスタマイズ
- Authors: Hengjia Li, Haonan Qiu, Shiwei Zhang, Xiang Wang, Yujie Wei, Zekun Li, Yingya Zhang, Boxi Wu, Deng Cai,
- Abstract要約: カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.21554597804604
- License:
- Abstract: The current text-to-video (T2V) generation has made significant progress in synthesizing realistic general videos, but it is still under-explored in identity-specific human video generation with customized ID images. The key challenge lies in maintaining high ID fidelity consistently while preserving the original motion dynamic and semantic following after the identity injection. Current video identity customization methods mainly rely on reconstructing given identity images on text-to-image models, which have a divergent distribution with the T2V model. This process introduces a tuning-inference gap, leading to dynamic and semantic degradation. To tackle this problem, we propose a novel framework, dubbed $\textbf{PersonalVideo}$, that applies a mixture of reward supervision on synthesized videos instead of the simple reconstruction objective on images. Specifically, we first incorporate identity consistency reward to effectively inject the reference's identity without the tuning-inference gap. Then we propose a novel semantic consistency reward to align the semantic distribution of the generated videos with the original T2V model, which preserves its dynamic and semantic following capability during the identity injection. With the non-reconstructive reward training, we further employ simulated prompt augmentation to reduce overfitting by supervising generated results in more semantic scenarios, gaining good robustness even with only a single reference image. Extensive experiments demonstrate our method's superiority in delivering high identity faithfulness while preserving the inherent video generation qualities of the original T2V model, outshining prior methods.
- Abstract(参考訳): 現在のテキスト・トゥ・ビデオ(T2V)生成は、現実的な一般的なビデオの合成において大きな進歩を遂げているが、IDイメージをカスタマイズしたアイデンティティ固有の人間ビデオ生成では、まだ未発見である。
鍵となる課題は、アイデンティティ注入後の元のモーションダイナミックとセマンティックを保ちながら、高いID忠実性を維持することである。
現在のビデオアイデンティティのカスタマイズ方法は、主にT2Vモデルと異なる分布を持つテキスト・ツー・イメージ・モデルで与えられたアイデンティティ・イメージを再構成することに依存している。
このプロセスはチューニングと推論のギャップを導入し、動的およびセマンティックな劣化につながります。
この問題に対処するために、画像上の単純な再構成目的ではなく、合成ビデオに報酬監督の混合を適用する「$\textbf{PersonalVideo}$」という新しいフレームワークを提案する。
具体的には、まず、チューニングと推論のギャップなしに参照のアイデンティティを効果的に注入するために、アイデンティティ整合性報酬を組み込む。
次に、生成したビデオのセマンティックな分布と元のT2Vモデルとを一致させる新しいセマンティックな一貫性報酬を提案する。
非再構成型報酬トレーニングでは、よりセマンティックなシナリオにおいて生成した結果を監視し、単一の参照画像だけで良好なロバスト性を得ることにより、オーバーフィッティングを低減するために、シミュレートされたプロンプト増強を採用する。
大規模な実験により,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する方法の優位性を実証した。
関連論文リスト
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。