論文の概要: Talking Head Generation via AU-Guided Landmark Prediction
- arxiv url: http://arxiv.org/abs/2509.19749v1
- Date: Wed, 24 Sep 2025 04:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.685348
- Title: Talking Head Generation via AU-Guided Landmark Prediction
- Title(参考訳): AU誘導ランドマーク予測による対話型ヘッドジェネレーション
- Authors: Shao-Yu Chang, Jingyi Xu, Hieu Le, Dimitris Samaras,
- Abstract要約: 顔行動単位(AUs)を用いた微粒化表現制御による音声駆動音声ヘッド生成のための2段階フレームワークを提案する。
第1段階では、変動運動生成器は、音声およびAU強度から時間的にコヒーレントなランドマークシーケンスを予測する。
第2段階では、拡散に基づく合成器がこれらのランドマークと参照画像に調和したリアルなリップ同期ビデオを生成する。
- 参考スコア(独自算出の注目度): 48.30051606459973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a two-stage framework for audio-driven talking head generation with fine-grained expression control via facial Action Units (AUs). Unlike prior methods relying on emotion labels or implicit AU conditioning, our model explicitly maps AUs to 2D facial landmarks, enabling physically grounded, per-frame expression control. In the first stage, a variational motion generator predicts temporally coherent landmark sequences from audio and AU intensities. In the second stage, a diffusion-based synthesizer generates realistic, lip-synced videos conditioned on these landmarks and a reference image. This separation of motion and appearance improves expression accuracy, temporal stability, and visual realism. Experiments on the MEAD dataset show that our method outperforms state-of-the-art baselines across multiple metrics, demonstrating the effectiveness of explicit AU-to-landmark modeling for expressive talking head generation.
- Abstract(参考訳): 本稿では,顔行動単位(AUs)を介し,微粒な表情制御が可能な音声駆動音声ヘッド生成のための2段階フレームワークを提案する。
感情ラベルや暗黙のAU条件に依存する従来の方法とは異なり、我々のモデルはAUを2次元の顔のランドマークに明示的にマッピングし、物理的に接地されたフレーム単位の表現制御を可能にする。
第1段階では、変動運動生成器は、音声およびAU強度から時間的にコヒーレントなランドマークシーケンスを予測する。
第2段階では、拡散に基づく合成器がこれらのランドマークと参照画像に調和したリアルなリップ同期ビデオを生成する。
この動きと外観の分離は、表現精度、時間安定性、視覚リアリズムを改善する。
MEADデータセットを用いた実験により,提案手法は複数の指標をまたいだ最先端のベースラインよりも優れており,明示的なAU-to-landmarkモデルの有効性が示された。
関連論文リスト
- KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation [4.952724424448834]
KSDiffはKeyframe-Augmented Speech-Aware Dual-Path Diffusionフレームワークである。
表現関連と頭置関連の機能をアンタングルにし、自動回帰的キーフレーム設定学習モジュールは最も有能な動きフレームを予測する。
HDTFとVoxCelebの実験では、KSDiffの最先端性能が証明され、唇の同期精度と頭部の自然さが向上した。
論文 参考訳(メタデータ) (2025-09-24T13:54:52Z) - Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。
個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。
我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文 参考訳(メタデータ) (2025-09-23T12:46:43Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。
提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-05T02:54:46Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。