Fugu-MT 論文翻訳(概要): Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

論文の概要: Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation

arxiv url: http://arxiv.org/abs/2301.03396v2
Date: Sat, 29 Jul 2023 19:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 23:56:17.319388
Title: Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation
Title（参考訳）: 混乱した頭:拡散モデルが対面生成でGANを上回った
Authors: Micha{\l} Stypu{\l}kowski, Konstantinos Vougioukas, Sen He, Maciej Zi\k{e}ba, Stavros Petridis, Maja Pantic
Abstract要約: 顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
参考スコア（独自算出の注目度）: 54.68893964373141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking face generation has historically struggled to produce head movements and natural facial expressions without guidance from additional reference videos. Recent developments in diffusion-based generative models allow for more realistic and stable data synthesis and their performance on image and video generation has surpassed that of other generative models. In this work, we present an autoregressive diffusion model that requires only one identity image and audio sequence to generate a video of a realistic talking human head. Our solution is capable of hallucinating head movements, facial expressions, such as blinks, and preserving a given background. We evaluate our model on two different datasets, achieving state-of-the-art results on both of them.
Abstract（参考訳）: 顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。近年の拡散型生成モデルの開発により、より現実的で安定したデータ合成が可能となり、画像およびビデオ生成の性能は他の生成モデルを上回るものとなった。本研究では,人間の頭部の映像を生成するのに1つの識別画像と音声シーケンスしか必要としない自己回帰拡散モデルを提案する。我々のソリューションは、頭の動き、点滅などの表情を幻覚させ、特定の背景を保存することができる。 2つの異なるデータセットでモデルを評価し、両者で最先端の結果を得る。

関連論文リスト

AI killed the video star. Audio-driven diffusion model for expressive talking head generation [11.938371312877715]
Dimitra++は、音声駆動音声ヘッド生成のためのフレームワークである。顔の動きをモデル化するための条件付き運動拡散変換器(cMDT)を提案する。 cMDTは、外観を決定する参照顔画像と、動きを駆動するオーディオシーケンスの2つの入力に条件付けされる。
論文参考訳（メタデータ） (2025-11-27T14:24:47Z)
DANCER: Dance ANimation via Condition Enhancement and Rendering with diffusion model [5.78710251788825]
最新の安定な映像拡散モデルに基づく現実的な個人舞踊合成のための新しいフレームワーク DANCER を提案する。フレームワークに2つの重要なモジュールを導入し、この2つのインプットを完全に活用します。インターネットから大量の映像データを収集し,新たなデータセットTikTok-3Kを生成し,モデルトレーニングの強化を図る。
論文参考訳（メタデータ） (2025-10-31T04:42:08Z)
ARTalk: Speech-Driven 3D Head Animation via Autoregressive Model [41.35209566957009]
音声駆動型3D顔アニメーションは、任意の音声クリップから3Dヘッドモデルのリアルな唇の動きと表情を生成することを目的としている。本研究では,高度に同期した唇の動きと,リアルな頭部ポーズと瞬きをリアルタイムに生成する自己回帰モデルを提案する。
論文参考訳（メタデータ） (2025-02-27T17:49:01Z)
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。 DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文参考訳（メタデータ） (2024-10-17T16:32:36Z)
SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model [66.34929233269409]
トーキングヘッドジェネレーション(THG)は、デジタル人間、映画制作、バーチャルリアリティーなど様々な分野の幅広い応用分野において重要な課題である。本稿では,THGのスタイル関連情報をフル活用したSVP(Style-Enhanced Vivid Portrait)を提案する。我々のモデルは、本質的なスタイルを柔軟に制御できる多様な、鮮明で高品質なビデオを生成し、既存の最先端の手法より優れています。
論文参考訳（メタデータ） (2024-09-05T06:27:32Z)
FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model [17.011391077181344]
本稿では,FD2Talk と呼ばれる音声音声生成のための表情分離拡散モデルを提案する。最初の段階では、生音声から動き係数を正確に予測する拡散変換器を設計する。第2フェーズでは、参照画像をエンコードして外観テクスチャをキャプチャする。
論文参考訳（メタデータ） (2024-08-18T07:03:53Z)
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文参考訳（メタデータ） (2024-08-03T10:19:38Z)
AnimateMe: 4D Facial Expressions via Diffusion Models [72.63383191654357]
拡散モデルの最近の進歩により、2次元アニメーションにおける生成モデルの能力が向上した。グラフニューラルネットワーク(GNN)は,メッシュ空間上で直接拡散過程を定式化し,新しい手法で拡散モデルを記述する。これにより、メッシュ拡散モデルによる顔の変形の発生が容易になる。
論文参考訳（メタデータ） (2024-03-25T21:40:44Z)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文参考訳（メタデータ） (2023-12-13T19:01:07Z)
High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文参考訳（メタデータ） (2023-04-20T09:02:41Z)
DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder [55.58582254514431]
そこで本研究では,DAE-Talkerを用いて全映像フレームを合成し,音声の内容に合わせて自然な頭部の動きを生成する。また、ポーズ制御性のための音声2latentのポーズモデリングも導入する。実験の結果,DAE-Talkerはリップシンク,ビデオの忠実さ,自然さなどの既存の手法よりも優れていた。
論文参考訳（メタデータ） (2023-03-30T17:18:31Z)
Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文参考訳（メタデータ） (2021-07-20T07:22:42Z)
Audio-driven Talking Face Video Generation with Learning-based Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文参考訳（メタデータ） (2020-02-24T10:02:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。