論文の概要: DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder
- arxiv url: http://arxiv.org/abs/2303.17550v5
- Date: Fri, 1 Mar 2024 11:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:41:15.364130
- Title: DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with
Diffusion Autoencoder
- Title(参考訳): DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成
- Authors: Chenpeng Du, Qi Chen, Xie Chen, Kai Yu
- Abstract要約: そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。
また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.814063371439904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent research has made significant progress in speech-driven talking
face generation, the quality of the generated video still lags behind that of
real recordings. One reason for this is the use of handcrafted intermediate
representations like facial landmarks and 3DMM coefficients, which are designed
based on human knowledge and are insufficient to precisely describe facial
movements. Additionally, these methods require an external pretrained model for
extracting these representations, whose performance sets an upper bound on
talking face generation. To address these limitations, we propose a novel
method called DAE-Talker that leverages data-driven latent representations
obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that
encodes an image into a latent vector and a DDIM image decoder that
reconstructs the image from it. We train our DAE on talking face video frames
and then extract their latent representations as the training target for a
Conformer-based speech2latent model. This allows DAE-Talker to synthesize full
video frames and produce natural head movements that align with the content of
speech, rather than relying on a predetermined head pose from a template video.
We also introduce pose modelling in speech2latent for pose controllability.
Additionally, we propose a novel method for generating continuous video frames
with the DDIM image decoder trained on individual frames, eliminating the need
for modelling the joint distribution of consecutive frames directly. Our
experiments show that DAE-Talker outperforms existing popular methods in
lip-sync, video fidelity, and pose naturalness. We also conduct ablation
studies to analyze the effectiveness of the proposed techniques and demonstrate
the pose controllability of DAE-Talker.
- Abstract(参考訳): 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。
この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。
さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。
これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。
DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。
我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。
これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。
また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。
また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。
実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces
from Disentangled Audio [47.070848508118836]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model [97.99027412399198]
VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose
Generation via Diffusion Models [25.515240381570013]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。
推論中、音声とスタイルに基づいて生成過程を案内するために分類器なし指導を用いる。
また,高品質な音声視覚データセットから再構成された3DMMパラメータのモデルをトレーニングすることで,3D音声データ不足にも対処する。
論文 参考訳(メタデータ) (2023-09-30T17:01:18Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Talking Head from Speech Audio using a Pre-trained Image Generator [5.659018934205065]
音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-09T11:20:37Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。