論文の概要: IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation
- arxiv url: http://arxiv.org/abs/2412.04000v1
- Date: Thu, 05 Dec 2024 09:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:40:46.763343
- Title: IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation
- Title(参考訳): IF-MDM:高精細リアルタイムトーキングヘッド生成のための暗黙の顔運動拡散モデル
- Authors: Sejong Yang, Seoung Wug Oh, Yang Zhou, Seon Joo Kim,
- Abstract要約: Implicit Face Motion Diffusion Model (IF-MDM) は、人間の顔を顔にエンコードする暗黙の動作を用いて、顔の表情を圧縮した顔にエンコードする。
IF-MDMは、毎秒45フレーム(fps)の512x512解像度ビデオのリアルタイム生成をサポートする。
- 参考スコア(独自算出の注目度): 40.29205415748199
- License:
- Abstract: We introduce a novel approach for high-resolution talking head generation from a single image and audio input. Prior methods using explicit face models, like 3D morphable models (3DMM) and facial landmarks, often fall short in generating high-fidelity videos due to their lack of appearance-aware motion representation. While generative approaches such as video diffusion models achieve high video quality, their slow processing speeds limit practical application. Our proposed model, Implicit Face Motion Diffusion Model (IF-MDM), employs implicit motion to encode human faces into appearance-aware compressed facial latents, enhancing video generation. Although implicit motion lacks the spatial disentanglement of explicit models, which complicates alignment with subtle lip movements, we introduce motion statistics to help capture fine-grained motion information. Additionally, our model provides motion controllability to optimize the trade-off between motion intensity and visual quality during inference. IF-MDM supports real-time generation of 512x512 resolution videos at up to 45 frames per second (fps). Extensive evaluations demonstrate its superior performance over existing diffusion and explicit face models. The code will be released publicly, available alongside supplementary materials. The video results can be found on https://bit.ly/ifmdm_supplementary.
- Abstract(参考訳): 単一画像と音声入力から高分解能音声ヘッドを生成する新しい手法を提案する。
3Dフォーマブルモデル(3DMM)や顔のランドマークといった明示的な顔モデルを用いた以前の手法は、外見を意識した動き表現の欠如により、高忠実度ビデオの生成に不足することが多い。
ビデオ拡散モデルのような生成的アプローチは高い画質を実現するが、処理速度の遅いため実用性は制限される。
提案モデルであるIF-MDM(Implicit Face Motion Diffusion Model)では,人物の顔の表情を圧縮した顔の表情に符号化し,映像生成を促進する。
暗黙的な動きは、微妙な唇の動きと整合を複雑にする明示的なモデルの空間的ゆがみを欠いているが、細かな動き情報を捉えるのに役立つ動き統計を導入する。
さらに,本モデルでは,推定時の運動強度と視覚的品質とのトレードオフを最適化するために,動作制御性を提供する。
IF-MDMは、毎秒45フレーム(fps)の512x512解像度ビデオのリアルタイム生成をサポートする。
大規模な評価は、既存の拡散および明示的な顔モデルよりも優れた性能を示す。
コードは公開され、追加の資料とともに利用可能になる。
ビデオの結果はhttps://bit.ly/ifmdm_supplementaryで見ることができる。
関連論文リスト
- Efficient Video Diffusion Models via Content-Frame Motion-Latent Decomposition [124.41196697408627]
本稿では,映像生成のための事前学習画像拡散モデルの拡張として,コンテントモーション潜時拡散モデル(CMD)を提案する。
CMDは、映像を(画像のような)コンテンツフレームと低次元モーションラテント表現の組み合わせとしてエンコードする。
我々は、予め訓練された画像拡散モデルを微調整し、コンテンツフレームを生成し、新しい軽量拡散モデルをトレーニングすることで、動き潜在表現を生成する。
論文 参考訳(メタデータ) (2024-03-21T05:48:48Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z) - Human Motion Diffusion Model [35.05219668478535]
運動拡散モデル(英: Motion Diffusion Model、MDM)は、人間の動作領域に対する変換器に基づく生成モデルである。
我々は,本モデルが軽量な資源で訓練されていることを示すとともに,テキスト・トゥ・モーションとアクション・トゥ・モーションのベンチマークにおいて,最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2022-09-29T16:27:53Z) - Diffusion Models for Video Prediction and Infilling [27.246449347832108]
本稿では,Random-Mask Video Diffusion (RaMViD)を提案する。
マスクをオンにすることで、モデルはビデオ予測、補充、アップサンプリングを行うことができる。
我々は,ビデオ予測のためのベンチマークデータセットと,競争力のある結果を得たビデオ生成のためのベンチマークデータセットを2つ評価した。
論文 参考訳(メタデータ) (2022-06-15T17:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。