論文の概要: LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details
- arxiv url: http://arxiv.org/abs/2410.00990v1
- Date: Tue, 1 Oct 2024 18:32:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:49:57.049612
- Title: LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details
- Title(参考訳): LaDTalk: 高頻度でトーキングヘッドビデオを合成する遅延デノイング
- Authors: Jian Yang, Xukun Wang, Wentao Wang, Guoming Li, Qihang Fang, Ruihong Yuan, Tianyang Wang, Jason Zhaoxin Fan,
- Abstract要約: 本稿では,写真リアリスティックな音声ヘッドビデオの合成に有効なポストプロセッシング手法を提案する。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
- 参考スコア(独自算出の注目度): 14.22392871407274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven talking head generation is a pivotal area within film-making and Virtual Reality. Although existing methods have made significant strides following the end-to-end paradigm, they still encounter challenges in producing videos with high-frequency details due to their limited expressivity in this domain. This limitation has prompted us to explore an effective post-processing approach to synthesize photo-realistic talking head videos. Specifically, we employ a pretrained Wav2Lip model as our foundation model, leveraging its robust audio-lip alignment capabilities. Drawing on the theory of Lipschitz Continuity, we have theoretically established the noise robustness of Vector Quantised Auto Encoders (VQAEs). Our experiments further demonstrate that the high-frequency texture deficiency of the foundation model can be temporally consistently recovered by the Space-Optimised Vector Quantised Auto Encoder (SOVQAE) we introduced, thereby facilitating the creation of realistic talking head videos. We conduct experiments on both the conventional dataset and the High-Frequency TalKing head (HFTK) dataset that we curated. The results indicate that our method, LaDTalk, achieves new state-of-the-art video quality and out-of-domain lip synchronization performance.
- Abstract(参考訳): 音声駆動音声ヘッド生成は、映画制作とバーチャルリアリティーにおける重要な領域である。
既存の手法はエンド・ツー・エンドのパラダイムに従って大きな進歩を遂げてきたが、この領域での表現力に制限があるため、高頻度の細部で動画を制作する際の課題に直面している。
この制限は、写真リアリスティックな音声ヘッドビデオの合成に有効な後処理手法を探るきっかけとなった。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
リプシッツ連続性の理論に基づいて、ベクトル量子化オートエンコーダ(VQAE)のノイズロバスト性を理論的に確立した。
さらに,提案した空間最適化ベクトル量子化オートエンコーダ(SOVQAE)により,基礎モデルの高頻度テクスチャ欠損を時間的に復元できることを示した。
我々は、従来のデータセットと、私たちがキュレートしたHFTK(High-Frequency TalKing Head)データセットの両方について実験を行った。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
関連論文リスト
- Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation [29.620451579580763]
そこで本研究では,MoDiTalkerと呼ばれる,対話型ヘッド生成のための移動距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-28T04:35:42Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - DiT-Head: High-Resolution Talking Head Synthesis using Diffusion
Transformers [2.1408617023874443]
拡散変換器をベースとした「DiTヘッド」は,拡散モデルの復調過程を駆動する条件として音声を用いる。
提案手法を学習・評価し,既存の音声音声合成法と比較する。
論文 参考訳(メタデータ) (2023-12-11T14:09:56Z) - RADIO: Reference-Agnostic Dubbing Video Synthesis [12.872464331012544]
単一の参照画像だけを考えると、意味のあるアイデンティティ属性を抽出することがさらに困難になる。
参照画像のポーズや表現に関わらず、高品質な「ビデオ」を提供するために設計されたフレームワークであるRADIOを紹介する。
実験の結果,RADIOは忠実度を損なうことなく高い同期性を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-05T04:56:18Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation [61.8546794105462]
我々は,一組のNeRFを用いて,繊細な音声駆動のポートレートを生成するセマンティック・アウェア・ポーティング・ポートレート・ネRF(SSP-NeRF)を提案する。
まず,音声によるボリュームレンダリングを容易にする解析機能を備えたSemantic-Aware Dynamic Ray Smplingモジュールを提案する。
1つの統合神経放射場におけるポートレートレンダリングを可能にするため、Torso変形モジュールは、大規模な非剛性胴体運動を安定させるように設計されている。
論文 参考訳(メタデータ) (2022-01-19T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。