論文の概要: SyncDiff: Diffusion-based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved Synchronization
- arxiv url: http://arxiv.org/abs/2503.13371v1
- Date: Mon, 17 Mar 2025 16:58:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:16.593778
- Title: SyncDiff: Diffusion-based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved Synchronization
- Title(参考訳): SyncDiff: ボトルネック型時間優先音声を用いた拡散型トーキングヘッド合成による同期改善
- Authors: Xulin Fan, Heting Gao, Ziyi Chen, Peng Chang, Mei Han, Mark Hasegawa-Johnson,
- Abstract要約: トーキングヘッド合成(トーキングヘッドシンセシス)は、与えられた音声トラックと一致する顔の動きを再構成する。
近年の研究では, この課題に対して, GANベースおよび拡散ベースモデルによりSOTA(State-of-the-art)性能が達成されている。
本稿では,情報ボトルネックとAVHuBERTから抽出した顔インフォーマティブ音声特徴を有する時間的ポーズフレームを用いて,拡散モデルを改善するための簡易かつ効果的なSyncDiffを提案する。
- 参考スコア(独自算出の注目度): 32.220603714163026
- License:
- Abstract: Talking head synthesis, also known as speech-to-lip synthesis, reconstructs the facial motions that align with the given audio tracks. The synthesized videos are evaluated on mainly two aspects, lip-speech synchronization and image fidelity. Recent studies demonstrate that GAN-based and diffusion-based models achieve state-of-the-art (SOTA) performance on this task, with diffusion-based models achieving superior image fidelity but experiencing lower synchronization compared to their GAN-based counterparts. To this end, we propose SyncDiff, a simple yet effective approach to improve diffusion-based models using a temporal pose frame with information bottleneck and facial-informative audio features extracted from AVHuBERT, as conditioning input into the diffusion process. We evaluate SyncDiff on two canonical talking head datasets, LRS2 and LRS3 for direct comparison with other SOTA models. Experiments on LRS2/LRS3 datasets show that SyncDiff achieves a synchronization score 27.7%/62.3% relatively higher than previous diffusion-based methods, while preserving their high-fidelity characteristics.
- Abstract(参考訳): トーキングヘッド合成(トーキングヘッドシンセシス)は、与えられた音声トラックと一致する顔の動きを再構成する。
合成ビデオは、主に唇音の同期と画像の忠実さの2つの側面で評価される。
近年の研究では、GANベースのモデルと拡散ベースモデルにより、画像の忠実度は優れているが、GANベースのモデルと比べて同期性が低いため、現状(SOTA)の性能が向上することが示されている。
そこで我々は,情報ボトルネックとAVHuBERTから抽出した顔インフォーマティブな音声特徴を有する時間的ポーズフレームを用いて,拡散過程への条件付けとして,拡散モデルを改善するための簡易かつ効果的なSyncDiffを提案する。
我々は、他のSOTAモデルと直接比較するために、2つの標準音声ヘッドデータセットであるLSS2とLSS3上でSyncDiffを評価する。
LRS2/LRS3データセットの実験では、SyncDiffは従来の拡散法よりも27.7%/62.3%高く、高忠実度特性を保っている。
関連論文リスト
- StochSync: Stochastic Diffusion Synchronization for Image Generation in Arbitrary Spaces [11.517082612850443]
本稿では,事前学習した画像拡散モデルを用いて任意の空間で画像を生成する手法を提案する。
ゼロショット法は、画像条件付けと3Dメッシュ法の両方の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2025-01-26T08:22:44Z) - LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision [13.447234794835921]
安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
論文 参考訳(メタデータ) (2024-12-12T13:20:52Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - ProDiff: Progressive Fast Diffusion Model For High-Quality
Text-to-Speech [63.780196620966905]
本稿では,高品質テキスト合成のためのプログレッシブ高速拡散モデルであるProDiffを提案する。
ProDiffはクリーンデータを直接予測することでデノナイジングモデルをパラメータ化し、サンプリングを高速化する際の品質劣化を回避する。
評価の結果,高忠実度メル-スペクトログラムの合成にProDiffは2回しか要しないことがわかった。
ProDiffは1つのNVIDIA 2080Ti GPU上で、サンプリング速度をリアルタイムより24倍高速にする。
論文 参考訳(メタデータ) (2022-07-13T17:45:43Z) - BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for
Binaural Audio Synthesis [129.86743102915986]
我々は、音声を共通部分へ分解することで、異なる視点から合成プロセスを定式化する。
拡散モデルを備えた新しい2段階フレームワークであるBinauralGradを提案する。
実験結果から,BinauralGradは対象評価指標と対象評価指標の両方において,既存のベースラインよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-05-30T02:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。