論文の概要: Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2211.14506v1
- Date: Sat, 26 Nov 2022 07:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:03:39.121429
- Title: Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis
- Title(参考訳): 微粒化制御型トーキングヘッド合成のためのプログレッシブディスタングル表現学習
- Authors: Duomin Wang, Yu Deng, Zixin Yin, Heung-Yeung Shum, Baoyuan Wang
- Abstract要約: 本稿では, 口唇の動き, 視線・瞬き, 頭部ポーズ, 感情表現に対して, ゆがみ, きめ細かな制御を実現するワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して、それらから発声頭部を合成する。
- 参考スコア(独自算出の注目度): 15.700918566471277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel one-shot talking head synthesis method that achieves
disentangled and fine-grained control over lip motion, eye gaze&blink, head
pose, and emotional expression. We represent different motions via disentangled
latent representations and leverage an image generator to synthesize talking
heads from them. To effectively disentangle each motion factor, we propose a
progressive disentangled representation learning strategy by separating the
factors in a coarse-to-fine manner, where we first extract unified motion
feature from the driving signal, and then isolate each fine-grained motion from
the unified feature. We introduce motion-specific contrastive learning and
regressing for non-emotional motions, and feature-level decorrelation and
self-reconstruction for emotional expression, to fully utilize the inherent
properties of each motion factor in unstructured video data to achieve
disentanglement. Experiments show that our method provides high quality
speech&lip-motion synchronization along with precise and disentangled control
over multiple extra facial motions, which can hardly be achieved by previous
methods.
- Abstract(参考訳): 本稿では, 唇の動き, 視線・瞬き, 頭部ポーズ, 情緒的表情のゆがみ, きめ細かな制御を実現する, ワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して音声ヘッドを合成する。
そこで我々は,各運動因子を効果的に切り離すために,各運動因子を粗い方法で分離し,まず駆動信号から統一運動特徴を抽出し,さらに各微細な動きを統一特徴から分離し,プログレッシブな不整合表現学習戦略を提案する。
本研究では、非感情的な動きに対する運動特異的なコントラスト学習と回帰、感情表現に対する特徴レベルのデコリレーションと自己再構成を導入し、非構造的ビデオデータにおける各モーションファクタの性質をフル活用して、ゆがみを実現する。
実験の結果,従来の手法では達成できない複数の顔の動きの高精度な制御とともに,高品質な音声とリップモーションの同期を実現することができた。
関連論文リスト
- KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
テキストに基づく人間の動きの制御は、コンピュータビジョンにおいて重要な課題である。
伝統的なアプローチは、しばしば運動合成のための全体論的な行動記述に依存している。
動作を別個の体節群運動に分解する動き表現を提案する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。
AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。
我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文 参考訳(メタデータ) (2024-10-12T07:01:17Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - SpeechAct: Towards Generating Whole-body Motion from Speech [33.10601371020488]
本稿では,音声から全身の動きを生成する問題に対処する。
本稿では,高精度かつ連続的な動き生成を実現するために,新しいハイブリッド・ポイント表現を提案する。
また,モデルがより独特な表現を生成することを奨励するコントラッシブ・モーション・ラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-29T07:57:30Z) - Synthesizing Long-Term Human Motions with Diffusion Models via Coherent
Sampling [74.62570964142063]
テキスト・トゥ・モーション・ジェネレーションは注目されているが、既存の手法のほとんどは短期的な動きに限られている。
本稿では,2つのコヒーレントサンプリング手法を用いた過去の拡散モデルを用いた新しい手法を提案する。
提案手法は,ユーザの指示した長文ストリームによって制御された,構成的かつコヒーレントな3次元人間の動作を生成することができる。
論文 参考訳(メタデータ) (2023-08-03T16:18:32Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。