論文の概要: DiT-Head: High-Resolution Talking Head Synthesis using Diffusion
Transformers
- arxiv url: http://arxiv.org/abs/2312.06400v1
- Date: Mon, 11 Dec 2023 14:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 15:32:57.718637
- Title: DiT-Head: High-Resolution Talking Head Synthesis using Diffusion
Transformers
- Title(参考訳): DiTヘッド:拡散変換器を用いた高分解能トーキングヘッド合成
- Authors: Aaron Mir, Eduardo Alonso and Esther Mondrag\'on
- Abstract要約: 拡散変換器をベースとした「DiTヘッド」は,拡散モデルの復調過程を駆動する条件として音声を用いる。
提案手法を学習・評価し,既存の音声音声合成法と比較する。
- 参考スコア(独自算出の注目度): 2.1408617023874443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel talking head synthesis pipeline called "DiT-Head", which
is based on diffusion transformers and uses audio as a condition to drive the
denoising process of a diffusion model. Our method is scalable and can
generalise to multiple identities while producing high-quality results. We
train and evaluate our proposed approach and compare it against existing
methods of talking head synthesis. We show that our model can compete with
these methods in terms of visual quality and lip-sync accuracy. Our results
highlight the potential of our proposed approach to be used for a wide range of
applications, including virtual assistants, entertainment, and education. For a
video demonstration of the results and our user study, please refer to our
supplementary material.
- Abstract(参考訳): 本研究では,拡散トランスをベースとし,拡散モデルの発声過程を駆動するための条件として音声を用いた,新たな音声ヘッド合成パイプライン「dit-head」を提案する。
提案手法はスケーラブルであり,高品質な結果が得られるとともに,複数のアイデンティティに一般化することができる。
提案手法を訓練し,評価し,既存の音声頭部合成法と比較した。
視覚的品質とリップシンク精度の観点から,本モデルがこれらの手法と競合することを示す。
提案手法が仮想アシスタント,エンターテイメント,教育など,幅広い用途に応用される可能性を強調した。
結果とユーザ調査のビデオデモについては、補足資料を参照のこと。
関連論文リスト
- LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details [14.22392871407274]
本稿では,写真リアリスティックな音声ヘッドビデオの合成に有効なポストプロセッシング手法を提案する。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:32:02Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Parametric Implicit Face Representation for Audio-Driven Facial
Reenactment [52.33618333954383]
本稿では,制御可能かつ高品質な発話ヘッドを生成可能な,新しい音声駆動型顔再現フレームワークを提案する。
具体的には、パラメトリックな暗示表現は、3次元顔モデルの解釈可能なパラメータで暗示表現をパラメータ化する。
提案手法は,話者の身元や話し方に忠実な従来手法よりも現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-06-13T07:08:22Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z) - Diffusion-Based Voice Conversion with Fast Maximum Likelihood Sampling
Scheme [4.053320933149689]
最も難しいのは、ソース話者とターゲット話者の両方がトレーニングデータセットに属さない場合、最も一般的な場合において、1つの参照発話のみからターゲット音声をコピーすることである。
拡散確率モデルに基づくスケーラブルな高品質なソリューションを提案し、最先端のワンショット音声変換手法と比較して優れた品質を示す。
論文 参考訳(メタデータ) (2021-09-28T15:48:22Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。