Fugu-MT 論文翻訳(概要): PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

論文の概要: PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation

arxiv url: http://arxiv.org/abs/2411.17048v2
Date: Sun, 16 Mar 2025 01:40:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.13811
Title: PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation
Title（参考訳）: PersonalVideo: ダイナミックでセマンティックな劣化のない高精細度ビデオのカスタマイズ
Authors: Hengjia Li, Haonan Qiu, Shiwei Zhang, Xiang Wang, Yujie Wei, Zekun Li, Yingya Zhang, Boxi Wu, Deng Cai,
Abstract要約: カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 36.21554597804604
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The current text-to-video (T2V) generation has made significant progress in synthesizing realistic general videos, but it is still under-explored in identity-specific human video generation with customized ID images. The key challenge lies in maintaining high ID fidelity consistently while preserving the original motion dynamic and semantic following after the identity injection. Current video identity customization methods mainly rely on reconstructing given identity images on text-to-image models, which have a divergent distribution with the T2V model. This process introduces a tuning-inference gap, leading to dynamic and semantic degradation. To tackle this problem, we propose a novel framework, dubbed $\textbf{PersonalVideo}$, that applies a mixture of reward supervision on synthesized videos instead of the simple reconstruction objective on images. Specifically, we first incorporate identity consistency reward to effectively inject the reference's identity without the tuning-inference gap. Then we propose a novel semantic consistency reward to align the semantic distribution of the generated videos with the original T2V model, which preserves its dynamic and semantic following capability during the identity injection. With the non-reconstructive reward training, we further employ simulated prompt augmentation to reduce overfitting by supervising generated results in more semantic scenarios, gaining good robustness even with only a single reference image. Extensive experiments demonstrate our method's superiority in delivering high identity faithfulness while preserving the inherent video generation qualities of the original T2V model, outshining prior methods.
Abstract（参考訳）: 現在のテキスト・トゥ・ビデオ(T2V)生成は、現実的な一般的なビデオの合成において大きな進歩を遂げているが、IDイメージをカスタマイズしたアイデンティティ固有の人間ビデオ生成では、まだ未発見である。鍵となる課題は、アイデンティティ注入後の元のモーションダイナミックとセマンティックを保ちながら、高いID忠実性を維持することである。現在のビデオアイデンティティのカスタマイズ方法は、主にT2Vモデルと異なる分布を持つテキスト・ツー・イメージ・モデルで与えられたアイデンティティ・イメージを再構成することに依存している。このプロセスはチューニングと推論のギャップを導入し、動的およびセマンティックな劣化につながります。この問題に対処するために、画像上の単純な再構成目的ではなく、合成ビデオに報酬監督の混合を適用する「$\textbf{PersonalVideo}$」という新しいフレームワークを提案する。具体的には、まず、チューニングと推論のギャップなしに参照のアイデンティティを効果的に注入するために、アイデンティティ整合性報酬を組み込む。次に、生成したビデオのセマンティックな分布と元のT2Vモデルとを一致させる新しいセマンティックな一貫性報酬を提案する。非再構成型報酬トレーニングでは、よりセマンティックなシナリオにおいて生成した結果を監視し、単一の参照画像だけで良好なロバスト性を得ることにより、オーバーフィッティングを低減するために、シミュレートされたプロンプト増強を採用する。大規模な実験により,従来のT2Vモデルに固有の映像生成特性を保ちながら,高いアイデンティティ忠実度を実現する方法の優位性を実証した。

関連論文リスト

Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。 Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文参考訳（メタデータ） (2025-06-30T11:05:32Z)
Subject-driven Video Generation via Disentangled Identity and Motion [52.54835936914813]
本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
論文参考訳（メタデータ） (2025-04-23T06:48:31Z)
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization [24.398759596367103]
ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。 MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
論文参考訳（メタデータ） (2025-03-16T23:15:09Z)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳（メタデータ） (2025-03-09T02:36:31Z)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳（メタデータ） (2024-11-26T13:58:24Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文参考訳（メタデータ） (2024-04-23T17:59:43Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文参考訳（メタデータ） (2024-03-18T13:39:53Z)
Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文参考訳（メタデータ） (2024-02-14T18:13:51Z)
Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文参考訳（メタデータ） (2024-01-31T11:52:33Z)
I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。 I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文参考訳（メタデータ） (2023-12-27T19:11:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。