Fugu-MT 論文翻訳(概要): DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

論文の概要: DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

arxiv url: http://arxiv.org/abs/2303.17550v5
Date: Fri, 1 Mar 2024 11:43:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-04 14:41:15.364130
Title: DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder
Title（参考訳）: DAE-Talker:拡散オートエンコーダを用いた高忠実度音声駆動音声生成
Authors: Chenpeng Du, Qi Chen, Xie Chen, Kai Yu
Abstract要約: そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
参考スコア（独自算出の注目度）: 20.814063371439904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent research has made significant progress in speech-driven talking face generation, the quality of the generated video still lags behind that of real recordings. One reason for this is the use of handcrafted intermediate representations like facial landmarks and 3DMM coefficients, which are designed based on human knowledge and are insufficient to precisely describe facial movements. Additionally, these methods require an external pretrained model for extracting these representations, whose performance sets an upper bound on talking face generation. To address these limitations, we propose a novel method called DAE-Talker that leverages data-driven latent representations obtained from a diffusion autoencoder (DAE). DAE contains an image encoder that encodes an image into a latent vector and a DDIM image decoder that reconstructs the image from it. We train our DAE on talking face video frames and then extract their latent representations as the training target for a Conformer-based speech2latent model. This allows DAE-Talker to synthesize full video frames and produce natural head movements that align with the content of speech, rather than relying on a predetermined head pose from a template video. We also introduce pose modelling in speech2latent for pose controllability. Additionally, we propose a novel method for generating continuous video frames with the DDIM image decoder trained on individual frames, eliminating the need for modelling the joint distribution of consecutive frames directly. Our experiments show that DAE-Talker outperforms existing popular methods in lip-sync, video fidelity, and pose naturalness. We also conduct ablation studies to analyze the effectiveness of the proposed techniques and demonstrate the pose controllability of DAE-Talker.
Abstract（参考訳）: 最近の研究は音声による音声音声生成に大きな進歩を遂げているが、生成したビデオの品質は実際の録音よりまだ遅れている。この理由の1つは、人間の知識に基づいて設計され、顔の動きを正確に記述できない、顔のランドマークや3DMM係数のような手作りの中間表現を使用することである。さらに、これらの手法には、これらの表現を抽出するための外部事前訓練モデルが必要である。これらの制約に対処するため,拡散オートエンコーダ(DAE)から得られたデータ駆動型潜在表現を利用するDAE-Talkerを提案する。 DAEは、画像を潜伏ベクトルにエンコードする画像エンコーダと、画像から再構成するDDIM画像デコーダとを含む。我々は,対話型ビデオフレームのdaeを訓練し,その潜在表現をコンフォーメータベースの音声2ラテントモデルの訓練対象として抽出する。これにより、DAE-Talkerは、テンプレートビデオから所定のヘッドポーズに頼るのではなく、完全なビデオフレームを合成し、音声の内容に合わせて自然な頭部の動きを生成することができる。また, ポーズ制御性のために, speech2latentにおけるポーズモデリングも導入する。また,個々のフレームで訓練されたddim画像デコーダを用いて連続的な映像フレームを生成する新しい手法を提案する。実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。また,提案手法の有効性を分析し,DAE-Talkerのポーズ制御性を示す。

関連論文リスト

Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation [34.89590516635867]
音声保存表情マニピュレーション(SPFEM)は,画像やビデオの表情変化を目的とした革新的な技術である。進歩にもかかわらず、SPFEMは、表情と口の形の間の複雑な相互作用のために、正確な唇の同期に苦慮している。本稿では、AD-THGモデルを用いて正確な唇の動きを同期したフレームを生成する新しいフレームワークTHFEM(Talking Head Facial Expression Manipulation)を提案する。
論文参考訳（メタデータ） (2026-01-19T09:31:24Z)
DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文参考訳（メタデータ） (2025-12-10T08:31:28Z)
See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement [19.653004988642163]
本研究は,音声から情報を直接抽出する新しいアプローチを提案する。特に、これは1つの音声入力からのみ高解像度で高品質な音声ビデオを生成することができる最初の方法である。
論文参考訳（メタデータ） (2025-10-28T09:46:19Z)
Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文参考訳（メタデータ） (2025-09-23T12:46:43Z)
EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。これらの問題に対処するためのEmotiveTalkフレームワークを提案する。実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文参考訳（メタデータ） (2024-11-23T04:38:51Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
Controllable Talking Face Generation by Implicit Facial Keypoints Editing [6.036277153327655]
本稿では,音声による表情の変形を制御するための音声合成手法であるControlTalkを提案する。提案手法は,HDTFやMEADなど,広く使用されているベンチマークにおいて,最先端の性能よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-05T02:54:46Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
DiffPoseTalk: Speech-Driven Stylistic 3D Facial Animation and Head Pose Generation via Diffusion Models [24.401443462720135]
本稿では,拡散モデルとスタイルエンコーダを組み合わせた生成フレームワークであるDiffPoseTalkを提案する。特に、私たちのスタイルには、頭部ポーズの生成が含まれており、それによってユーザの知覚が向上する。高品質な映像データセットから再構成された3DMMパラメータをモデルに学習することで,3D音声データ不足に対処する。
論文参考訳（メタデータ） (2023-09-30T17:01:18Z)
Identity-Preserving Talking Face Generation with Landmark and Appearance Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文参考訳（メタデータ） (2023-05-15T01:31:32Z)
Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文参考訳（メタデータ） (2023-01-06T14:16:54Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)
Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文参考訳（メタデータ） (2020-03-29T06:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。