論文の概要: FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model
- arxiv url: http://arxiv.org/abs/2408.09384v1
- Date: Sun, 18 Aug 2024 07:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:59:59.071324
- Title: FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model
- Title(参考訳): FD2Talk: 顔分離拡散モデルを用いた一般化話者生成に向けて
- Authors: Ziyu Yao, Xuxin Cheng, Zhiqi Huang,
- Abstract要約: 本稿では,FD2Talk と呼ばれる音声音声生成のための表情分離拡散モデルを提案する。
最初の段階では、生音声から動き係数を正確に予測する拡散変換器を設計する。
第2フェーズでは、参照画像をエンコードして外観テクスチャをキャプチャする。
- 参考スコア(独自算出の注目度): 17.011391077181344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head generation is a significant research topic that still faces numerous challenges. Previous works often adopt generative adversarial networks or regression models, which are plagued by generation quality and average facial shape problem. Although diffusion models show impressive generative ability, their exploration in talking head generation remains unsatisfactory. This is because they either solely use the diffusion model to obtain an intermediate representation and then employ another pre-trained renderer, or they overlook the feature decoupling of complex facial details, such as expressions, head poses and appearance textures. Therefore, we propose a Facial Decoupled Diffusion model for Talking head generation called FD2Talk, which fully leverages the advantages of diffusion models and decouples the complex facial details through multi-stages. Specifically, we separate facial details into motion and appearance. In the initial phase, we design the Diffusion Transformer to accurately predict motion coefficients from raw audio. These motions are highly decoupled from appearance, making them easier for the network to learn compared to high-dimensional RGB images. Subsequently, in the second phase, we encode the reference image to capture appearance textures. The predicted facial and head motions and encoded appearance then serve as the conditions for the Diffusion UNet, guiding the frame generation. Benefiting from decoupling facial details and fully leveraging diffusion models, extensive experiments substantiate that our approach excels in enhancing image quality and generating more accurate and diverse results compared to previous state-of-the-art methods.
- Abstract(参考訳): ヘッドジェネレーションについて語ることは、まだ多くの課題に直面している重要な研究トピックである。
以前の研究はしばしば、生成品質と平均的な顔形状の問題に悩まされている、生成的対向ネットワークまたは回帰モデルを採用する。
拡散モデルは印象的な生成能力を示すが、その発話ヘッド生成における探索は相変わらず不十分である。
これは、拡散モデルのみを使用して中間表現を取得し、訓練済みの別のレンダラーを使用するか、あるいは表現、頭部ポーズ、外観テクスチャといった複雑な顔の細部を分離する特徴を見落としているためである。
そこで本稿では,FD2Talk と呼ばれる音声音声の音声生成のための表情分離拡散モデルを提案し,その利点をフル活用し,複雑な顔の細部を多段階に分解する。
具体的には、顔の詳細を動きと外観に分けます。
最初の段階では、生音声から動き係数を正確に予測する拡散変換器を設計する。
これらの動きは外観から非常に切り離されており、高次元のRGB画像と比較してネットワークが学習しやすい。
その後、第2フェーズでは、参照画像をエンコードして外観テクスチャをキャプチャする。
予測された顔と頭部の動きと符号化された外観は、拡散UNetの条件として機能し、フレーム生成を導く。
顔の細部を疎結合し、拡散モデルを完全に活用することで、我々のアプローチは画像品質の向上と、従来の最先端手法と比較してより正確で多様な結果を生み出すことが実証された。
関連論文リスト
- OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。
顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。
その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-26T07:07:48Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。
第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。
第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文 参考訳(メタデータ) (2024-08-03T10:19:38Z) - DiffusionAct: Controllable Diffusion Autoencoder for One-shot Face Reenactment [34.821255203019554]
ビデオ駆動型ニューラルフェイスの再現は、元の顔のアイデンティティと外観をうまく保存する現実的な顔画像を合成することを目的としている。
拡散確率モデル(DPM)の最近の進歩は、高品質な現実画像の生成を可能にする。
本稿では,拡散モデルのフォトリアリスティック画像生成を利用して,ニューラルフェイスの再現を行う新しい手法であるDiffusionを提案する。
論文 参考訳(メタデータ) (2024-03-25T21:46:53Z) - FitDiff: Robust monocular 3D facial shape and reflectance estimation using Diffusion Models [79.65289816077629]
拡散型3次元顔アバター生成モデルFitDiffを提案する。
本モデルでは,「近距離」2次元顔画像から抽出したアイデンティティ埋め込みを利用して,再現性のある顔アバターを高精度に生成する。
FitDiffは、顔認識の埋め込みを前提とした最初の3D LDMであり、一般的なレンダリングエンジンで使用可能な、ライティング可能な人間のアバターを再構築する。
論文 参考訳(メタデータ) (2023-12-07T17:35:49Z) - One-Shot High-Fidelity Talking-Head Synthesis with Deformable Neural
Radiance Field [81.07651217942679]
トーキングヘッド生成は、ソース画像の識別情報を保持し、駆動画像の動作を模倣する顔を生成することを目的としている。
我々は高忠実かつ自由視点の対話ヘッド合成を実現するHiDe-NeRFを提案する。
論文 参考訳(メタデータ) (2023-04-11T09:47:35Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。