論文の概要: StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles
- arxiv url: http://arxiv.org/abs/2301.01081v2
- Date: Sat, 10 Jun 2023 14:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:40:55.319341
- Title: StyleTalk: One-shot Talking Head Generation with Controllable Speaking
Styles
- Title(参考訳): StyleTalk: 制御可能な話し方を備えたワンショットトーキングヘッドジェネレーション
- Authors: Yifeng Ma, Suzhen Wang, Zhipeng Hu, Changjie Fan, Tangjie Lv, Yu Ding,
Zhidong Deng and Xin Yu
- Abstract要約: ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
任意の参照音声ビデオから話し方を得る。
それから、ワンショットのポートレートを駆動して、レファレンスな話し方と、別の音声で話す。
- 参考スコア(独自算出の注目度): 43.12918949398099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different people speak with diverse personalized speaking styles. Although
existing one-shot talking head methods have made significant progress in lip
sync, natural facial expressions, and stable head motions, they still cannot
generate diverse speaking styles in the final talking head videos. To tackle
this problem, we propose a one-shot style-controllable talking face generation
framework. In a nutshell, we aim to attain a speaking style from an arbitrary
reference speaking video and then drive the one-shot portrait to speak with the
reference speaking style and another piece of audio. Specifically, we first
develop a style encoder to extract dynamic facial motion patterns of a style
reference video and then encode them into a style code. Afterward, we introduce
a style-controllable decoder to synthesize stylized facial animations from the
speech content and style code. In order to integrate the reference speaking
style into generated videos, we design a style-aware adaptive transformer,
which enables the encoded style code to adjust the weights of the feed-forward
layers accordingly. Thanks to the style-aware adaptation mechanism, the
reference speaking style can be better embedded into synthesized videos during
decoding. Extensive experiments demonstrate that our method is capable of
generating talking head videos with diverse speaking styles from only one
portrait image and an audio clip while achieving authentic visual effects.
Project Page: https://github.com/FuxiVirtualHuman/styletalk.
- Abstract(参考訳): さまざまな人が多様なパーソナライズドスピーキングスタイルで話します。
既存のワンショット発声ヘッド法は, 口唇シンク, 自然な表情, 安定した頭部動作において大きな進歩を遂げているが, 最終的な発声ヘッドビデオでは, 多様な発声スタイルを生成できない。
この問題に対処するために,ワンショットスタイル制御可能な音声顔生成フレームワークを提案する。
簡単に言えば、任意の参照音声ビデオから発話スタイルを取得し、ワンショットのポートレートを駆動して、参照音声スタイルと他のオーディオと対話することを目指している。
具体的には,まず,スタイル参照ビデオの動的顔動作パターンを抽出し,それをスタイルコードにエンコードするスタイルエンコーダを開発した。
その後、音声コンテンツとスタイルコードからスタイリッシュな顔アニメーションを合成するスタイル制御可能なデコーダを導入する。
そこで本稿では,参照発話スタイルを生成映像に統合するために,符号化されたスタイルコードがフィードフォワード層の重みを調整できるように,スタイル認識適応トランスフォーマを設計した。
スタイルを意識した適応機構のおかげで、参照発話スタイルをデコード中に合成ビデオに組み込むことができる。
広汎な実験により,1つのポートレート画像と1つの音声クリップから多種多様な発話スタイルで音声ヘッドビデオを生成することができるとともに,視覚効果を実感できることがわかった。
プロジェクトページ: https://github.com/fuxivirtualhuman/styletalk.com
関連論文リスト
- StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads [46.749597670092484]
既存のワンショット音声ヘッド方式では、最終ビデオで様々な話し方を生成することができない。
本稿では,参照ビデオから発話スタイルを得ることができるワンショットスタイル制御可能な話し顔生成法を提案する。
本手法は,1つのポートレート画像と1つの音声クリップから,多様な話し方で視覚的に発話するヘッドビデオを生成する。
論文 参考訳(メタデータ) (2024-09-14T03:49:38Z) - Style-Preserving Lip Sync via Audio-Aware Style Reference [88.02195932723744]
個人は、個人の独特の話し方に起因して、同じ発話をするときに異なる唇の形を示す。
入力音声に対応する唇の動きを予測できる高度なトランスフォーマーモデルを開発し, スタイル参照ビデオから, クロスアテンション層に集約されたスタイル情報によって拡張する。
提案手法の有効性を検証し, 正確な唇のシンク, 発話スタイルの保存, 高忠実でリアルな話し声ビデオの生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-08-10T02:46:11Z) - Say Anything with Any Style [9.50806457742173]
Anything withAny Styleは、学習したスタイルのコードブックで生成モデルを介して、個別のスタイル表現をクエリします。
提案手法は, リップ同期とスタイル表現の両方の観点から, 最先端の手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-11T01:20:03Z) - Mimic: Speaking Style Disentanglement for Speech-Driven 3D Facial
Animation [41.489700112318864]
音声駆動型3D顔アニメーションは、音声と正確に同期し、独特の話し方にマッチする鮮やかな顔アニメーションを合成することを目的としている。
本稿では,任意の発話スタイルの符号化を可能にする,革新的な発話スタイルのアンタングル化手法を提案する。
また,顔の動きから話し方や内容の絡み合った表現を学習する「textbfMimic」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-18T01:49:42Z) - Personalized Speech-driven Expressive 3D Facial Animation Synthesis with
Style Control [1.8540152959438578]
現実的な顔アニメーションシステムは、自然性や妥当性の高次化を実現するために、アイデンティティ固有の話し方や顔の慣用性を考慮すべきである。
音声駆動型表情表現3次元顔画像合成フレームワークを提案する(スタイルと呼ばれる)。
我々のフレームワークはエンドツーエンドで訓練されており、3つの主要コンポーネントを持つ非自己回帰エンコーダデコーダアーキテクチャを備えている。
論文 参考訳(メタデータ) (2023-10-25T21:22:28Z) - AdaMesh: Personalized Facial Expressions and Head Poses for Adaptive Speech-Driven 3D Facial Animation [49.4220768835379]
AdaMeshは、適応的な音声駆動の顔アニメーションアプローチである。
約10秒間の参照ビデオから、パーソナライズされた話し方を学ぶ。
鮮やかな表情と頭部のポーズを生成する。
論文 参考訳(メタデータ) (2023-10-11T06:56:08Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation [47.06075725469252]
StyleTalkerは音声駆動のトーキングヘッド生成モデルである。
単一の参照画像から話し手の映像を合成することができる。
我々のモデルは、音声ヘッドビデオを印象的な品質で合成することができる。
論文 参考訳(メタデータ) (2022-08-23T12:49:01Z) - Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face
Synthesis [17.650661515807993]
本稿では,特定の参照ビデオの任意の発話スタイルを模倣することにより,音声合成フレームワークにスタイルを注入することを提案する。
我々は,スタイルコードから発声スタイルを模倣して,スタイリングされた音声を合成する潜在スタイル融合(LSF)モデルを考案した。
論文 参考訳(メタデータ) (2021-10-30T08:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。