論文の概要: SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model
- arxiv url: http://arxiv.org/abs/2409.03270v1
- Date: Thu, 5 Sep 2024 06:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 21:40:47.915144
- Title: SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model
- Title(参考訳): SVP: 頭部拡散モデルに基づくスタイル強化型ヴィヴィッド・ポートレート
- Authors: Weipeng Tan, Chuming Lin, Chengming Xu, Xiaozhong Ji, Junwei Zhu, Chengjie Wang, Yanwei Fu,
- Abstract要約: トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 66.34929233269409
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Talking Head Generation (THG), typically driven by audio, is an important and challenging task with broad application prospects in various fields such as digital humans, film production, and virtual reality. While diffusion model-based THG methods present high quality and stable content generation, they often overlook the intrinsic style which encompasses personalized features such as speaking habits and facial expressions of a video. As consequence, the generated video content lacks diversity and vividness, thus being limited in real life scenarios. To address these issues, we propose a novel framework named Style-Enhanced Vivid Portrait (SVP) which fully leverages style-related information in THG. Specifically, we first introduce the novel probabilistic style prior learning to model the intrinsic style as a Gaussian distribution using facial expressions and audio embedding. The distribution is learned through the 'bespoked' contrastive objective, effectively capturing the dynamic style information in each video. Then we finetune a pretrained Stable Diffusion (SD) model to inject the learned intrinsic style as a controlling signal via cross attention. Experiments show that our model generates diverse, vivid, and high-quality videos with flexible control over intrinsic styles, outperforming existing state-of-the-art methods.
- Abstract(参考訳): トーキングヘッドジェネレーション(THG)は、一般的にオーディオによって駆動される、デジタル人間、映画制作、バーチャルリアリティーといった様々な分野の幅広い応用分野において、重要かつ困難な課題である。
拡散モデルに基づくTHG法は、高品質で安定したコンテンツ生成を提供するが、ビデオの発話習慣や表情などのパーソナライズされた特徴を含む本質的なスタイルをしばしば見落としている。
その結果、生成されたビデオコンテンツは多様性と鮮明さに欠けており、現実のシナリオでは制限される。
これらの課題に対処するため,我々はTHGのスタイル関連情報を完全に活用するStyle-Enhanced Vivid Portrait (SVP) という新しいフレームワークを提案する。
具体的には,まず,表情と音声の埋め込みを用いたガウス分布として固有のスタイルをモデル化するために,新しい確率的スタイルを学習前に導入する。
分布はコントラスト的目的によって学習され、各ビデオのダイナミックなスタイル情報を効果的にキャプチャする。
次に、事前学習された安定拡散(SD)モデルを微調整し、クロスアテンションによる制御信号として学習固有のスタイルを注入する。
実験により,本モデルは,本質的なスタイルを柔軟に制御できる多種多様で鮮明で高品質なビデオを生成し,既存の最先端の手法よりも優れていることが示された。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Say Anything with Any Style [9.50806457742173]
Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-11T01:20:03Z) - HiCAST: Highly Customized Arbitrary Style Transfer with Adapter Enhanced
Diffusion Models [84.12784265734238]
Arbitrary Style Transfer (AST)の目標は、あるスタイル参照の芸術的特徴を所定の画像/ビデオに注入することである。
各種のセマンティックな手がかりに基づいてスタイリング結果を明示的にカスタマイズできるHiCASTを提案する。
新たな学習目標をビデオ拡散モデルトレーニングに活用し,フレーム間の時間的一貫性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-01-11T12:26:23Z) - One Style is All you Need to Generate a Video [0.9558392439655012]
学習された正弦波基底の集合に基づく新しい時間発生器を提案する。
本手法は,画像の内容に依存しない様々な動作の動的表現を学習し,異なるアクター間で伝達することができる。
論文 参考訳(メタデータ) (2023-10-27T01:17:48Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。