論文の概要: DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
- arxiv url: http://arxiv.org/abs/2409.10281v1
- Date: Mon, 16 Sep 2024 13:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:20:32.031214
- Title: DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis
- Title(参考訳): DreamHead: 音声駆動型トーキングヘッド合成のための階層拡散による時空間対応学習
- Authors: Fa-Ting Hong, Yunfei Liu, Yu Li, Changyin Zhou, Fei Yu, Dan Xu,
- Abstract要約: 本稿では,音声頭部合成における空間的時間的対応を学習する階層的拡散フレームワークであるDreamHeadを紹介する。
具体的には、音声とランドマークの拡散の第1階層は、時間的に滑らかで正確なランドマークシーケンスを予測するために最初に設計されている。
さらに、空間的に一貫した顔画像を生成するために、ランドマーク・ツー・イメージ拡散の第2階層が提案されている。
- 参考スコア(独自算出の注目度): 29.481693585636318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head synthesis strives to generate lifelike video portraits from provided audio. The diffusion model, recognized for its superior quality and robust generalization, has been explored for this task. However, establishing a robust correspondence between temporal audio cues and corresponding spatial facial expressions with diffusion models remains a significant challenge in talking head generation. To bridge this gap, we present DreamHead, a hierarchical diffusion framework that learns spatial-temporal correspondences in talking head synthesis without compromising the model's intrinsic quality and adaptability.~DreamHead learns to predict dense facial landmarks from audios as intermediate signals to model the spatial and temporal correspondences.~Specifically, a first hierarchy of audio-to-landmark diffusion is first designed to predict temporally smooth and accurate landmark sequences given audio sequence signals. Then, a second hierarchy of landmark-to-image diffusion is further proposed to produce spatially consistent facial portrait videos, by modeling spatial correspondences between the dense facial landmark and appearance. Extensive experiments show that proposed DreamHead can effectively learn spatial-temporal consistency with the designed hierarchical diffusion and produce high-fidelity audio-driven talking head videos for multiple identities.
- Abstract(参考訳): 音声駆動音声ヘッド合成は、提供された音声からライフライクなビデオポートレートを生成する。
拡散モデルは、その優れた品質と堅牢な一般化によって認識され、この課題のために検討されている。
しかし、時空間音声キューとそれに対応する空間的表情の拡散モデルとの堅牢な対応を確立することは、音声ヘッド生成において重要な課題である。
このギャップを埋めるために、モデル固有の品質と適応性を損なうことなく、音声頭合成における時空間対応を学習する階層的拡散フレームワークDreamHeadを提案する。
DreamHeadは、音声から密集した顔のランドマークを中間信号として予測し、空間的および時間的対応をモデル化する。
具体的には、オーディオ・ランドマーク拡散の第1階層は、まず、与えられた音声シーケンス信号の時間的スムーズで正確なランドマークシーケンスを予測するために設計されている。
次に、濃密な顔のランドマークと外観の間の空間的対応をモデル化することにより、空間的に一貫した顔像映像を生成するために、ランドマークとイメージの拡散の第2階層をさらに提案する。
広汎な実験により,提案したDreamHeadは,設計した階層的拡散による空間的時間的一貫性を効果的に学習し,複数のアイデンティティのための高忠実度音声駆動音声ヘッドビデオを生成することができた。
関連論文リスト
- FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DiffTalker: Co-driven audio-image diffusion for talking faces via
intermediate landmarks [34.80705897511651]
DiffTalkerは、音声とランドマークによる共同運転を通じて、生活に似た会話顔を生成するように設計された、新しいモデルである。
実験ではDiffTalkerが明瞭で幾何学的に正確な発話顔を生成する上で優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-14T08:22:34Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony
in Talking Head Generation [0.0]
音声と頭部の動きの短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。
我々のジェネレータは顔のランドマーク領域で動作しており、これは標準的な低次元の頭部表現である。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。