論文の概要: AI killed the video star. Audio-driven diffusion model for expressive talking head generation
- arxiv url: http://arxiv.org/abs/2511.22488v1
- Date: Thu, 27 Nov 2025 14:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.603721
- Title: AI killed the video star. Audio-driven diffusion model for expressive talking head generation
- Title(参考訳): 音声による対話型ヘッド生成のための拡散モデル
- Authors: Baptiste Chopin, Tashvik Dhamija, Pranav Balaji, Yaohui Wang, Antitza Dantcheva,
- Abstract要約: Dimitra++は、音声駆動音声ヘッド生成のためのフレームワークである。
顔の動きをモデル化するための条件付き運動拡散変換器(cMDT)を提案する。
cMDTは、外観を決定する参照顔画像と、動きを駆動するオーディオシーケンスの2つの入力に条件付けされる。
- 参考スコア(独自算出の注目度): 11.938371312877715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Dimitra++, a novel framework for audio-driven talking head generation, streamlined to learn lip motion, facial expression, as well as head pose motion. Specifically, we propose a conditional Motion Diffusion Transformer (cMDT) to model facial motion sequences, employing a 3D representation. The cMDT is conditioned on two inputs: a reference facial image, which determines appearance, as well as an audio sequence, which drives the motion. Quantitative and qualitative experiments, as well as a user study on two widely employed datasets, i.e., VoxCeleb2 and CelebV-HQ, suggest that Dimitra++ is able to outperform existing approaches in generating realistic talking heads imparting lip motion, facial expression, and head pose.
- Abstract(参考訳): 音声駆動型音声ヘッド生成のための新しいフレームワークであるDimitra++を提案する。
具体的には,3次元表現を用いて顔の動き系列をモデル化するための条件付き動き拡散変換器(cMDT)を提案する。
cMDTは、外観を決定する参照顔画像と、動きを駆動するオーディオシーケンスの2つの入力に条件付けされる。
定量的で質的な実験と、VoxCeleb2とCelebV-HQという2つの広く使われているデータセットのユーザスタディにより、Dimitra++は、唇の動き、表情、頭ポーズを付与する現実的な会話ヘッドを生成する既存のアプローチより優れていることが示唆されている。
関連論文リスト
- Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation [11.341242901688489]
Dimitraは音声駆動音声ヘッド生成のためのフレームワークである。
我々は,3次元表現による顔の動き系列をモデル化し,条件付き動き拡散変換器(cMDT)を訓練する。
オーディオから直接追加機能を抽出することで、Dimitraは生成されたビデオの品質とリアリズムを高めることができる。
論文 参考訳(メタデータ) (2025-02-24T14:31:20Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。