論文の概要: LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision
- arxiv url: http://arxiv.org/abs/2412.09262v2
- Date: Thu, 13 Mar 2025 09:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:43.286775
- Title: LatentSync: Taming Audio-Conditioned Latent Diffusion Models for Lip Sync with SyncNet Supervision
- Title(参考訳): LatentSync: SyncNet Supervisionによるリップシンクのためのオーディオコンディション付き遅延拡散モデル
- Authors: Chunyu Li, Chao Zhang, Weikai Xu, Jingyu Lin, Jinghui Xie, Weiguo Feng, Bingyue Peng, Cunjian Chen, Weiwei Xing,
- Abstract要約: 安定収束のために設計されたアーキテクチャを備えたStableSyncNetを紹介する。
提案手法は,HDTFおよびVoxCeleb2データセット上での様々な評価指標にまたがって,最先端のリップシンクアプローチを超越する。
- 参考スコア(独自算出の注目度): 13.447234794835921
- License:
- Abstract: End-to-end audio-conditioned latent diffusion models (LDMs) have been widely adopted for audio-driven portrait animation, demonstrating their effectiveness in generating lifelike and high-resolution talking videos. However, direct application of audio-conditioned LDMs to lip-synchronization (lip-sync) tasks results in suboptimal lip-sync accuracy. Through an in-depth analysis, we identified the underlying cause as the "shortcut learning problem", wherein the model predominantly learns visual-visual shortcuts while neglecting the critical audio-visual correlations. To address this issue, we explored different approaches for integrating SyncNet supervision into audio-conditioned LDMs to explicitly enforce the learning of audio-visual correlations. Since the performance of SyncNet directly influences the lip-sync accuracy of the supervised model, the training of a well-converged SyncNet becomes crucial. We conducted the first comprehensive empirical studies to identify key factors affecting SyncNet convergence. Based on our analysis, we introduce StableSyncNet, with an architecture designed for stable convergence. Our StableSyncNet achieved a significant improvement in accuracy, increasing from 91% to 94% on the HDTF test set. Additionally, we introduce a novel Temporal Representation Alignment (TREPA) mechanism to enhance temporal consistency in the generated videos. Experimental results show that our method surpasses state-of-the-art lip-sync approaches across various evaluation metrics on the HDTF and VoxCeleb2 datasets.
- Abstract(参考訳): エンドツーエンドの音声条件付き潜時拡散モデル(LDM)は、オーディオ駆動のポートレートアニメーションに広く採用されており、ライフライクで高解像度の音声ビデオを生成する上での有効性を実証している。
しかし、音声条件付きLDMのリップ同期(リップ同期)タスクへの直接適用は、最適下唇同期精度をもたらす。
より詳細な分析により,その原因を「ショートカット学習問題」と同定し,重要な音声と視覚の相関を無視しながら,主に視覚と視覚のショートカットを学習する。
この問題に対処するため,SyncNet の監視を音声条件付き LDM に統合し,音声と視覚の相関関係の学習を明示的に実施するための様々なアプローチについて検討した。
SyncNetの性能は、教師付きモデルのリップシンク精度に直接影響を与えるため、よく収束したSyncNetのトレーニングが重要となる。
SyncNetの収束に影響を及ぼす要因を明らかにするための総合的な実験を行った。
そこで本研究では,安定収束のためのアーキテクチャであるStableSyncNetを紹介した。
当社のStableSyncNetは,HDTFテストセットで91%から94%に向上した。
さらに、生成されたビデオの時間的一貫性を高めるために、新しいテンポラル表現アライメント(TREPA)機構を導入する。
実験の結果,本手法はHDTFおよびVoxCeleb2データセットの様々な評価指標にまたがって,最先端のリップシンク手法を超越していることがわかった。
関連論文リスト
- SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation [21.335983674309475]
拡散モデルは、世代毎の根底にあるデノナイジングネットワークへのクエリ数が過度に多いため、遅い推論に悩まされる。
本稿では,1つの非自己回帰型ネットワーククエリのみを必要とするフレームワークであるConsistencyTTAを紹介する。
そこで我々は「CFG対応潜時整合モデル」を提案し, 整合性生成を潜時空間に適応させる。
論文 参考訳(メタデータ) (2023-09-19T16:36:33Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - Edge Continual Learning for Dynamic Digital Twins over Wireless Networks [68.65520952712914]
デジタルツイン(DT)は、現実世界とメタバースの間の重要なリンクを構成する。
本稿では,物理的双生児とそれに対応するサイバー双生児の親和性を正確にモデル化する新しいエッジ連続学習フレームワークを提案する。
提案するフレームワークは,破滅的忘れ込みに対して頑健な,高精度かつ同期的なCTモデルを実現する。
論文 参考訳(メタデータ) (2022-04-10T23:25:37Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。