論文の概要: DiffTalk: Crafting Diffusion Models for Generalized Talking Head
Synthesis
- arxiv url: http://arxiv.org/abs/2301.03786v1
- Date: Tue, 10 Jan 2023 05:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:44:01.828682
- Title: DiffTalk: Crafting Diffusion Models for Generalized Talking Head
Synthesis
- Title(参考訳): DiffTalk: 汎用トーキングヘッド合成のための拡散モデルの構築
- Authors: Shuai Shen, Wenliang Zhao, Zibin Meng, Wanhua Li, Zheng Zhu, Jie Zhou,
Jiwen Lu
- Abstract要約: 我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
このようにして、提案したDiffTalkは、ソースオーディオと同期して高品質な音声ヘッドビデオを生成することができる。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
- 参考スコア(独自算出の注目度): 78.08004432704826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head synthesis is a promising approach for the video production
industry. Recently, a lot of effort has been devoted in this research area to
improve the generation quality or enhance the model generalization. However,
there are few works able to address both issues simultaneously, which is
essential for practical applications. To this end, in this paper, we turn
attention to the emerging powerful Latent Diffusion Models, and model the
Talking head generation as an audio-driven temporally coherent denoising
process (DiffTalk). More specifically, instead of employing audio signals as
the single driving factor, we investigate the control mechanism of the talking
face, and incorporate reference face images and landmarks as conditions for
personality-aware generalized synthesis. In this way, the proposed DiffTalk is
capable of producing high-quality talking head videos in synchronization with
the source audio, and more importantly, it can be naturally generalized across
different identities without any further fine-tuning. Additionally, our
DiffTalk can be gracefully tailored for higher-resolution synthesis with
negligible extra computational cost. Extensive experiments show that the
proposed DiffTalk efficiently synthesizes high-fidelity audio-driven talking
head videos for generalized novel identities. For more video results, please
refer to this demonstration
\url{https://cloud.tsinghua.edu.cn/f/e13f5aad2f4c4f898ae7/}.
- Abstract(参考訳): 音声合成はビデオ制作業界にとって有望なアプローチである。
近年, この研究分野において, 生成品質の向上やモデル一般化の促進に多くの努力が注がれている。
しかし,両課題を同時に解決できる作業は少なく,実用的応用には不可欠である。
そこで本稿では,新たに出現する強力な潜在拡散モデルに注目し,音声駆動時間的コヒーレント雑音化プロセス(difftalk)として発話頭部生成をモデル化する。
具体的には、音声信号を単一の駆動要因として使用する代わりに、話し手の制御機構を調査し、参照顔画像とランドマークを人格認識の一般化合成条件として組み込む。
このようにして、提案されたdifftalkは、ソースオーディオと同期して高品質なトークヘッドビデオを生成することができ、さらに重要なことは、さらに微調整することなく、異なるアイデンティティにまたがって自然に一般化することができることである。
さらに、我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
広範な実験により,提案するdifftalkは,高忠実度音声駆動対話型頭部映像を効率的に合成することを示す。
さらなるビデオ結果については、このデモである \url{https://cloud.tsinghua.edu.cn/f/e13f5aad2f4c4f898ae7/} を参照してください。
関連論文リスト
- LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details [14.22392871407274]
本稿では,写真リアリスティックな音声ヘッドビデオの合成に有効なポストプロセッシング手法を提案する。
具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。
以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:32:02Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head
Synthesis [42.203900183584665]
本稿ではAE-NeRF(Audio Enhanced Neural Radiance Field)を提案する。
AE-NeRFは、限られたトレーニングセットやトレーニングイテレーションであっても、画像の忠実さ、オーディオ-リップ同期、一般化能力の最先端を超越している。
論文 参考訳(メタデータ) (2023-12-18T04:14:38Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - DiffTalker: Co-driven audio-image diffusion for talking faces via
intermediate landmarks [34.80705897511651]
DiffTalkerは、音声とランドマークによる共同運転を通じて、生活に似た会話顔を生成するように設計された、新しいモデルである。
実験ではDiffTalkerが明瞭で幾何学的に正確な発話顔を生成する上で優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-14T08:22:34Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Talking Head Generation with Probabilistic Audio-to-Visual Diffusion
Priors [18.904856604045264]
ワンショット音声駆動音声ヘッド生成のためのシンプルで斬新なフレームワークを提案する。
入力音声を意味的に一致させるために,全唇不関連顔の動きを確率的にサンプリングする。
従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、多様な顔の動きシーケンスを合成できることである。
論文 参考訳(メタデータ) (2022-12-07T17:55:41Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。