論文の概要: MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation
- arxiv url: http://arxiv.org/abs/2403.19144v1
- Date: Thu, 28 Mar 2024 04:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.259132
- Title: MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation
- Title(参考訳): MoDiTalker:高密度トーキングヘッド生成のための運動距離拡散モデル
- Authors: Seyeon Kim, Siyoon Jin, Jihye Park, Kihong Kim, Jiyoung Kim, Jisu Nam, Seungryong Kim,
- Abstract要約: そこで本研究では,MoDiTalkerと呼ばれる,対話型ヘッド生成のための移動距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 29.620451579580763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional GAN-based models for talking head generation often suffer from limited quality and unstable training. Recent approaches based on diffusion models aimed to address these limitations and improve fidelity. However, they still face challenges, including extensive sampling times and difficulties in maintaining temporal consistency due to the high stochasticity of diffusion models. To overcome these challenges, we propose a novel motion-disentangled diffusion model for high-quality talking head generation, dubbed MoDiTalker. We introduce the two modules: audio-to-motion (AToM), designed to generate a synchronized lip motion from audio, and motion-to-video (MToV), designed to produce high-quality head video following the generated motion. AToM excels in capturing subtle lip movements by leveraging an audio attention mechanism. In addition, MToV enhances temporal consistency by leveraging an efficient tri-plane representation. Our experiments conducted on standard benchmarks demonstrate that our model achieves superior performance compared to existing models. We also provide comprehensive ablation studies and user study results.
- Abstract(参考訳): 従来のGANベースの音声ヘッド生成モデルは、限られた品質と不安定なトレーニングに悩まされることが多い。
拡散モデルに基づく最近のアプローチは、これらの制限に対処し、忠実性を改善することを目的としている。
しかし、拡散モデルの確率性が高いため、大規模なサンプリング時間や時間的一貫性維持の難しさなど、依然として課題に直面している。
これらの課題を克服するために,MoDiTalker と呼ばれる高品質な音声ヘッド生成のための動き距離拡散モデルを提案する。
本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。
AToMは、オーディオアテンション機構を活用して、微妙な唇の動きを捉えている。
さらに、MToVは効率的な三面体表現を活用することで時間的整合性を高める。
標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
また,包括的アブレーション研究やユーザスタディの結果も提供する。
関連論文リスト
- Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Taming Diffusion Models for Music-driven Conducting Motion Generation [1.0624606551524207]
本稿では,Diffusion-Conductorについて述べる。
本稿では,特徴のロバスト性を改善するためのランダムマスキング手法を提案し,幾何損失関数のペアを用いて正規化を付加する。
また,Frechet Gesture Distance (FGD) や Beat Consistency Score (BC) など,より包括的な動作評価のための新しい指標も設計した。
論文 参考訳(メタデータ) (2023-06-15T03:49:24Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Autoregressive GAN for Semantic Unconditional Head Motion Generation [0.0]
低エラー蓄積レベルを維持しつつ、長時間にわたってリッチなヘッドモーションシーケンスを合成することを学ぶGANベースのアーキテクチャを考案する。
提案手法の妥当性を実験的に検証し、類似タスクにおける最先端性能を達成したモデルと比較して、その優位性を示す。
論文 参考訳(メタデータ) (2022-11-02T09:48:49Z) - Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。
拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文 参考訳(メタデータ) (2022-09-10T22:00:30Z) - Tackling the Generative Learning Trilemma with Denoising Diffusion GANs [20.969702008187838]
深層生成モデルは、しばしば高いサンプル品質、モードカバレッジ、高速サンプリングに同時に対処するのに苦労する。
既存のモデルでは、そのいくつかを他のモデルと交換することが多いので、私たちはこの課題を生成学習のトリレンマと呼んでいる。
マルチモーダル条件付きGANを用いて各デノナイジングステップをモデル化するデノナイジング拡散生成対向ネットワーク(デノナイジング拡散GAN)を導入する。
論文 参考訳(メタデータ) (2021-12-15T00:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。