論文の概要: VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer
- arxiv url: http://arxiv.org/abs/2308.04830v3
- Date: Wed, 20 Nov 2024 11:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:10:46.726353
- Title: VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer
- Title(参考訳): VAST: ゼロショットの表情でアバターを振動させる
- Authors: Liyang Chen, Zhiyong Wu, Runnan Li, Weihong Bao, Jun Ling, Xu Tan, Sheng Zhao,
- Abstract要約: 本稿では、中立な光リアルアバターを再生するための教師なし変動型転送モデル(VAST)を提案する。
本モデルは,映像のプロンプトから表情表現を抽出するスタイルエンコーダと,正確な音声関連動作をモデル化するハイブリッド表情デコーダの3つの重要な構成要素から構成される。
顔のスタイル学習に欠かせない設計で、任意のビデオプロンプトから表現スタイルを柔軟に捉え、ゼロショットでパーソナライズされた画像に転送することができる。
- 参考スコア(独自算出の注目度): 44.39474584573651
- License:
- Abstract: Current talking face generation methods mainly focus on speech-lip synchronization. However, insufficient investigation on the facial talking style leads to a lifeless and monotonous avatar. Most previous works fail to imitate expressive styles from arbitrary video prompts and ensure the authenticity of the generated video. This paper proposes an unsupervised variational style transfer model (VAST) to vivify the neutral photo-realistic avatars. Our model consists of three key components: a style encoder that extracts facial style representations from the given video prompts; a hybrid facial expression decoder to model accurate speech-related movements; a variational style enhancer that enhances the style space to be highly expressive and meaningful. With our essential designs on facial style learning, our model is able to flexibly capture the expressive facial style from arbitrary video prompts and transfer it onto a personalized image renderer in a zero-shot manner. Experimental results demonstrate the proposed approach contributes to a more vivid talking avatar with higher authenticity and richer expressiveness.
- Abstract(参考訳): 現在の音声顔生成法は主に音声-リップ同期に焦点を当てている。
しかし、顔の話し方についての十分な調査は、生き生きとした単調なアバターに繋がる。
以前のほとんどの作品は、任意のビデオプロンプトから表現力のあるスタイルを模倣し、生成されたビデオの信頼性を保証することに失敗した。
本稿では、中立な光リアルアバターを再生するための教師なし変動型転送モデル(VAST)を提案する。
提案モデルは,与えられた映像プロンプトから表情表現を抽出するスタイルエンコーダ,正確な音声関連動作をモデル化するハイブリッド表情デコーダ,スタイル空間を高度に表現的かつ有意義に拡張する変動スタイルエンコーダの3つの重要な構成要素から構成される。
顔のスタイル学習に欠かせない設計で、任意のビデオプロンプトから表現力のある顔のスタイルを柔軟に捉え、ゼロショットでパーソナライズされた画像レンダラーに転送することができる。
実験により,提案手法はより鮮明な発話アバターの信頼性と表現性の向上に寄与することが示された。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。
本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。
我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文 参考訳(メタデータ) (2024-09-05T06:27:32Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - Imitator: Personalized Speech-driven 3D Facial Animation [63.57811510502906]
State-of-the-artメソッドは、ターゲットアクターの顔トポロジを変形させ、ターゲットアクターのアイデンティティ固有の話し方や顔の慣用性を考慮せずに入力オーディオを同期させる。
本稿では,音声による表情合成手法であるImitatorについて述べる。
提案手法は,ターゲットアクターの発話スタイルを保ちながら,入力音声から時間的コヒーレントな表情を生成する。
論文 参考訳(メタデータ) (2022-12-30T19:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。