論文の概要: StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads
- arxiv url: http://arxiv.org/abs/2409.09292v1
- Date: Sat, 14 Sep 2024 03:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:29:12.230471
- Title: StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads
- Title(参考訳): StyleTalk++: トーキングヘッドの話し方を制御する統一フレームワーク
- Authors: Suzhen Wang, Yifeng Ma, Yu Ding, Zhipeng Hu, Changjie Fan, Tangjie Lv, Zhidong Deng, Xin Yu,
- Abstract要約: 既存のワンショット音声ヘッド方式では、最終ビデオで様々な話し方を生成することができない。
本稿では,参照ビデオから発話スタイルを得ることができるワンショットスタイル制御可能な話し顔生成法を提案する。
本手法は,1つのポートレート画像と1つの音声クリップから,多様な話し方で視覚的に発話するヘッドビデオを生成する。
- 参考スコア(独自算出の注目度): 46.749597670092484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Individuals have unique facial expression and head pose styles that reflect their personalized speaking styles. Existing one-shot talking head methods cannot capture such personalized characteristics and therefore fail to produce diverse speaking styles in the final videos. To address this challenge, we propose a one-shot style-controllable talking face generation method that can obtain speaking styles from reference speaking videos and drive the one-shot portrait to speak with the reference speaking styles and another piece of audio. Our method aims to synthesize the style-controllable coefficients of a 3D Morphable Model (3DMM), including facial expressions and head movements, in a unified framework. Specifically, the proposed framework first leverages a style encoder to extract the desired speaking styles from the reference videos and transform them into style codes. Then, the framework uses a style-aware decoder to synthesize the coefficients of 3DMM from the audio input and style codes. During decoding, our framework adopts a two-branch architecture, which generates the stylized facial expression coefficients and stylized head movement coefficients, respectively. After obtaining the coefficients of 3DMM, an image renderer renders the expression coefficients into a specific person's talking-head video. Extensive experiments demonstrate that our method generates visually authentic talking head videos with diverse speaking styles from only one portrait image and an audio clip.
- Abstract(参考訳): 個人は独自の表情と、パーソナライズされた話し方を反映した頭ポーズスタイルを持っている。
既存のワンショット音声ヘッド方式では、このようなパーソナライズされた特徴を捉えられないため、最終ビデオにおいて多様な話し方を生成することができない。
この課題に対処するために,参照音声ビデオから発話スタイルを取得し,ワンショットのポートレートを駆動し,参照音声スタイルと他の音声と対話するワンショットスタイル制御可能な音声顔生成手法を提案する。
本手法は,顔の表情や頭部の動きを含む3次元形態素モデル(3DMM)のスタイル制御可能な係数を統一的な枠組みで合成することを目的とする。
具体的には、まずスタイルエンコーダを利用して、参照ビデオから所望の発話スタイルを抽出し、それらをスタイルコードに変換する。
そして、このフレームワークは3DMMの係数をオーディオ入力とスタイルコードから合成するためにスタイル認識デコーダを使用する。
復号化の際には2分岐アーキテクチャを採用し,それぞれにスタイリングされた表情係数とスタイリングされた頭部運動係数を生成する。
3DMMの係数を得た後、画像レンダラは、表現係数を特定の人のトーキングヘッドビデオにレンダリングする。
広汎な実験により,1つのポートレート画像と1つの音声クリップのみから,多様な発話スタイルの視覚的発話ヘッドビデオを生成することができた。
関連論文リスト
- MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes [74.82911268630463]
トーキングフェース生成(TFG)は、ターゲットアイデンティティーの顔をアニメーション化し、リアルなトーキングビデオを作成することを目的としている。
MimicTalkは、個人別TFGの効率性と堅牢性を改善するために、NeRFベースの個人非依存のジェネリックモデルから豊富な知識を活用する。
私たちのMimicTalkは、ビデオの品質、効率、表現性に関して、これまでのベースラインを超えていることが実験によって示されています。
論文 参考訳(メタデータ) (2024-10-09T10:12:37Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。
高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles [43.12918949398099]
ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
論文 参考訳(メタデータ) (2023-01-03T13:16:24Z) - Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face
Synthesis [17.650661515807993]
本稿では,特定の参照ビデオの任意の発話スタイルを模倣することにより,音声合成フレームワークにスタイルを注入することを提案する。
我々は,スタイルコードから発声スタイルを模倣して,スタイリングされた音声を合成する潜在スタイル融合(LSF)モデルを考案した。
論文 参考訳(メタデータ) (2021-10-30T08:15:27Z) - MakeItTalk: Speaker-Aware Talking-Head Animation [49.77977246535329]
本稿では,音声を入力として1つの顔画像から表現力のある音声音声を生成する手法を提案する。
この中間表現に基づいて,本手法は全音声頭部の映像を全動作域で合成することができる。
論文 参考訳(メタデータ) (2020-04-27T17:56:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。