論文の概要: Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2211.14506v1
- Date: Sat, 26 Nov 2022 07:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:03:39.121429
- Title: Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis
- Title(参考訳): 微粒化制御型トーキングヘッド合成のためのプログレッシブディスタングル表現学習
- Authors: Duomin Wang, Yu Deng, Zixin Yin, Heung-Yeung Shum, Baoyuan Wang
- Abstract要約: 本稿では, 口唇の動き, 視線・瞬き, 頭部ポーズ, 感情表現に対して, ゆがみ, きめ細かな制御を実現するワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して、それらから発声頭部を合成する。
- 参考スコア(独自算出の注目度): 15.700918566471277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel one-shot talking head synthesis method that achieves
disentangled and fine-grained control over lip motion, eye gaze&blink, head
pose, and emotional expression. We represent different motions via disentangled
latent representations and leverage an image generator to synthesize talking
heads from them. To effectively disentangle each motion factor, we propose a
progressive disentangled representation learning strategy by separating the
factors in a coarse-to-fine manner, where we first extract unified motion
feature from the driving signal, and then isolate each fine-grained motion from
the unified feature. We introduce motion-specific contrastive learning and
regressing for non-emotional motions, and feature-level decorrelation and
self-reconstruction for emotional expression, to fully utilize the inherent
properties of each motion factor in unstructured video data to achieve
disentanglement. Experiments show that our method provides high quality
speech&lip-motion synchronization along with precise and disentangled control
over multiple extra facial motions, which can hardly be achieved by previous
methods.
- Abstract(参考訳): 本稿では, 唇の動き, 視線・瞬き, 頭部ポーズ, 情緒的表情のゆがみ, きめ細かな制御を実現する, ワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して音声ヘッドを合成する。
そこで我々は,各運動因子を効果的に切り離すために,各運動因子を粗い方法で分離し,まず駆動信号から統一運動特徴を抽出し,さらに各微細な動きを統一特徴から分離し,プログレッシブな不整合表現学習戦略を提案する。
本研究では、非感情的な動きに対する運動特異的なコントラスト学習と回帰、感情表現に対する特徴レベルのデコリレーションと自己再構成を導入し、非構造的ビデオデータにおける各モーションファクタの性質をフル活用して、ゆがみを実現する。
実験の結果,従来の手法では達成できない複数の顔の動きの高精度な制御とともに,高品質な音声とリップモーションの同期を実現することができた。
関連論文リスト
- MotionMix: Weakly-Supervised Diffusion for Controllable Motion
Generation [19.999239668765885]
MotionMixはノイズと無注釈の両方のモーションシーケンスを利用する弱い教師付き拡散モデルである。
我々のフレームワークは、テキスト・トゥ・モーション、アクション・トゥ・モーション、音楽・トゥ・ダンスのタスクにおける最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-01-20T04:58:06Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [35.51765286581986]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - High-Fidelity Neural Human Motion Transfer from Monocular Video [71.75576402562247]
ビデオベースの人間のモーション転送は、ソースモーションに従って人間のビデオアニメーションを作成します。
自然なポーズ依存非剛性変形を伴う高忠実で時間的に一貫性のある人の動き伝達を行う新しい枠組みを提案する。
実験結果では,映像リアリズムの点で最先端を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-20T16:54:38Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。