論文の概要: A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony
in Talking Head Generation
- arxiv url: http://arxiv.org/abs/2307.03270v1
- Date: Tue, 4 Jul 2023 08:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-16 04:14:36.046231
- Title: A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony
in Talking Head Generation
- Title(参考訳): トーキングヘッド生成における音声・ダイナミクス同期の総合的マルチスケールアプローチ
- Authors: Louis Airale (UGA, LIG), Dominique Vaufreydaz (LIG), Xavier
Alameda-Pineda (UGA)
- Abstract要約: 音声と頭部の動きの短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。
我々のジェネレータは顔のランドマーク領域で動作しており、これは標準的な低次元の頭部表現である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animating still face images with deep generative models using a speech input
signal is an active research topic and has seen important recent progress.
However, much of the effort has been put into lip syncing and rendering quality
while the generation of natural head motion, let alone the audio-visual
correlation between head motion and speech, has often been neglected. In this
work, we propose a multi-scale audio-visual synchrony loss and a multi-scale
autoregressive GAN to better handle short and long-term correlation between
speech and the dynamics of the head and lips. In particular, we train a stack
of syncer models on multimodal input pyramids and use these models as guidance
in a multi-scale generator network to produce audio-aligned motion unfolding
over diverse time scales. Our generator operates in the facial landmark domain,
which is a standard low-dimensional head representation. The experiments show
significant improvements over the state of the art in head motion dynamics
quality and in multi-scale audio-visual synchrony both in the landmark domain
and in the image domain.
- Abstract(参考訳): 音声入力信号を用いた静止画像の深部生成モデルによるアニメーション化は活発な研究課題であり,最近の重要な進展が見られる。
しかし、頭の動きと音声の音声と視覚の相関はさておき、自然な頭の動きの発生は無視されることが多いため、唇の同期やレンダリングの質に多くの努力が注がれている。
本研究では,頭部と唇のダイナミックスと音声の短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。
特に、マルチモーダルな入力ピラミッド上でシンセサイザーモデルのスタックをトレーニングし、これらのモデルをマルチスケールジェネレータネットワークのガイダンスとして使用し、多様な時間スケールに展開するオーディオアライメント動作を生成する。
我々のジェネレータは、標準的な低次元の頭部表現である顔のランドマーク領域で動作する。
実験により,頭部運動のダイナミックス品質,およびランドマーク領域と画像領域の両方におけるマルチスケールオーディオ-視覚同期における技術の現状が大幅に改善された。
関連論文リスト
- Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。