論文の概要: MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation
- arxiv url: http://arxiv.org/abs/2403.19144v1
- Date: Thu, 28 Mar 2024 04:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.259132
- Title: MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation
- Title(参考訳): MoDiTalker:高密度トーキングヘッド生成のための運動距離拡散モデル
- Authors: Seyeon Kim, Siyoon Jin, Jihye Park, Kihong Kim, Jiyoung Kim, Jisu Nam, Seungryong Kim,
- Abstract要約: そこで本研究では,MoDiTalkerと呼ばれる,対話型ヘッド生成のための移動距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 29.620451579580763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional GAN-based models for talking head generation often suffer from limited quality and unstable training. Recent approaches based on diffusion models aimed to address these limitations and improve fidelity. However, they still face challenges, including extensive sampling times and difficulties in maintaining temporal consistency due to the high stochasticity of diffusion models. To overcome these challenges, we propose a novel motion-disentangled diffusion model for high-quality talking head generation, dubbed MoDiTalker. We introduce the two modules: audio-to-motion (AToM), designed to generate a synchronized lip motion from audio, and motion-to-video (MToV), designed to produce high-quality head video following the generated motion. AToM excels in capturing subtle lip movements by leveraging an audio attention mechanism. In addition, MToV enhances temporal consistency by leveraging an efficient tri-plane representation. Our experiments conducted on standard benchmarks demonstrate that our model achieves superior performance compared to existing models. We also provide comprehensive ablation studies and user study results.
- Abstract(参考訳): 従来のGANベースの音声ヘッド生成モデルは、限られた品質と不安定なトレーニングに悩まされることが多い。
拡散モデルに基づく最近のアプローチは、これらの制限に対処し、忠実性を改善することを目的としている。
しかし、拡散モデルの確率性が高いため、大規模なサンプリング時間や時間的一貫性維持の難しさなど、依然として課題に直面している。
これらの課題を克服するために,MoDiTalker と呼ばれる高品質な音声ヘッド生成のための動き距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
AToMは、オーディオアテンション機構を活用して、微妙な唇の動きを捉えている。
さらに、MToVは効率的な三面体表現を活用することで時間的整合性を高める。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
また,包括的アブレーション研究やユーザスタディの結果も提供する。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - High-Resolution Speech Restoration with Latent Diffusion Model [24.407232363131534]
複数の歪みを扱う生成モデルは、電話の再構成や高周波高調波にしばしば苦労する。
複数の歪みを除去し、音声記録をスタジオ品質に復元する潜在拡散に基づく新しい生成モデルであるHi-ResLDMを提案する。
我々は、GANとCFM(Conditional Flow Matching)コンポーネントを活用する最先端手法に対してHi-ResLDMをベンチマークし、高周波帯域の詳細を再生する際の優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T12:55:23Z) - Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Autoregressive GAN for Semantic Unconditional Head Motion Generation [0.0]
低エラー蓄積レベルを維持しつつ、長時間にわたってリッチなヘッドモーションシーケンスを合成することを学ぶGANベースのアーキテクチャを考案する。
提案手法の妥当性を実験的に検証し、類似タスクにおける最先端性能を達成したモデルと比較して、その優位性を示す。
論文 参考訳(メタデータ) (2022-11-02T09:48:49Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。