論文の概要: Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation
- arxiv url: http://arxiv.org/abs/2502.17198v1
- Date: Mon, 24 Feb 2025 14:31:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:54.709495
- Title: Dimitra: Audio-driven Diffusion model for Expressive Talking Head Generation
- Title(参考訳): Dimitra:表現型トーキングヘッド生成のための音声駆動拡散モデル
- Authors: Baptiste Chopin, Tashvik Dhamija, Pranav Balaji, Yaohui Wang, Antitza Dantcheva,
- Abstract要約: Dimitraは音声駆動音声ヘッド生成のためのフレームワークである。
我々は,3次元表現による顔の動き系列をモデル化し,条件付き動き拡散変換器(cMDT)を訓練する。
オーディオから直接追加機能を抽出することで、Dimitraは生成されたビデオの品質とリアリズムを高めることができる。
- 参考スコア(独自算出の注目度): 11.341242901688489
- License:
- Abstract: We propose Dimitra, a novel framework for audio-driven talking head generation, streamlined to learn lip motion, facial expression, as well as head pose motion. Specifically, we train a conditional Motion Diffusion Transformer (cMDT) by modeling facial motion sequences with 3D representation. We condition the cMDT with only two input signals, an audio-sequence, as well as a reference facial image. By extracting additional features directly from audio, Dimitra is able to increase quality and realism of generated videos. In particular, phoneme sequences contribute to the realism of lip motion, whereas text transcript to facial expression and head pose realism. Quantitative and qualitative experiments on two widely employed datasets, VoxCeleb2 and HDTF, showcase that Dimitra is able to outperform existing approaches for generating realistic talking heads imparting lip motion, facial expression, and head pose.
- Abstract(参考訳): 口唇の動き,表情,および頭部のポーズ動作を学習するために合理化された音声駆動音声ヘッド生成のための新しいフレームワークであるDimitraを提案する。
具体的には,3次元表現による顔の動き系列をモデル化し,条件付き動き拡散変換器(cMDT)を訓練する。
我々は2つの入力信号、オーディオシーケンス、および参照顔画像でcMDTを条件付けする。
オーディオから直接追加機能を抽出することで、Dimitraは生成されたビデオの品質とリアリズムを高めることができる。
特に、音素配列は唇の動きのリアリズムに寄与するが、テキストは表情や頭ポーズのリアリズムに寄与する。
広く使われている2つのデータセットであるVoxCeleb2とHDTFの定量的および定性的な実験は、Dimitraが、唇の動き、表情、頭ポーズを付与する現実的な会話ヘッドを生成する既存のアプローチより優れていることを示した。
関連論文リスト
- Playmate: Flexible Control of Portrait Animation via 3D-Implicit Space Guided Diffusion [6.677873152109559]
Playmateは、より生き生きとした表情と話す顔を生成するために提案されている。
最初の段階では、より正確な属性の絡み合いを容易にするために、分離された暗黙の3D表現を導入する。
第2段階では、感情制御情報を潜在空間にエンコードする感情制御モジュールを導入する。
論文 参考訳(メタデータ) (2025-02-11T02:53:48Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D
Hybrid Prior [28.737324182301652]
高品質な音声ヘッドビデオを生成するための2段階の汎用フレームワークを提案する。
第1段階では、非剛性表現運動と剛性頭部運動を含む2つの動作を学習することにより、音声をメッシュにマッピングする。
第2段階では,メッシュを高密度な動きに変換し,高品質なビデオフレームをフレーム単位で合成する,デュアルブランチモーションベとジェネレータを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:25:37Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。