論文の概要: MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling
- arxiv url: http://arxiv.org/abs/2410.10122v3
- Date: Wed, 26 Mar 2025 10:48:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 16:24:39.277635
- Title: MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling
- Title(参考訳): MuseTalk: 時空間サンプリングによるリアルタイム高忠実度ビデオダビング
- Authors: Yue Zhang, Zhizhou Zhong, Minhao Liu, Zhaokang Chen, Bin Wu, Yubin Zeng, Chao Zhan, Yingjie He, Junxin Huang, Wenjiang Zhou,
- Abstract要約: 拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの禁止に苦しむ。
MuseTalkは、遅延空間最適化とデータサンプリング戦略を通じて、このトレードオフを解決する新しい2段階のトレーニングフレームワークである。
MuseTalkは、潜在領域における効果的なオーディオ-視覚機能融合フレームワークを確立し、NVIDIA V100 GPU上で256*256の解像度で30 FPS出力を提供する。
- 参考スコア(独自算出の注目度): 12.438835523353347
- License:
- Abstract: Real-time video dubbing that preserves identity consistency while achieving accurate lip synchronization remains a critical challenge. Existing approaches face a trilemma: diffusion-based methods achieve high visual fidelity but suffer from prohibitive computational costs, while GAN-based solutions sacrifice lip-sync accuracy or dental details for real-time performance. We present MuseTalk, a novel two-stage training framework that resolves this trade-off through latent space optimization and spatio-temporal data sampling strategy. Our key innovations include: (1) During the Facial Abstract Pretraining stage, we propose Informative Frame Sampling to temporally align reference-source pose pairs, eliminating redundant feature interference while preserving identity cues. (2) In the Lip-Sync Adversarial Finetuning stage, we employ Dynamic Margin Sampling to spatially select the most suitable lip-movement-promoting regions, balancing audio-visual synchronization and dental clarity. (3) MuseTalk establishes an effective audio-visual feature fusion framework in the latent space, delivering 30 FPS output at 256*256 resolution on an NVIDIA V100 GPU. Extensive experiments demonstrate that MuseTalk outperforms state-of-the-art methods in visual fidelity while achieving comparable lip-sync accuracy. %The codes and models will be made publicly available upon acceptance. The code is made available at \href{https://github.com/TMElyralab/MuseTalk}{https://github.com/TMElyralab/MuseTalk}
- Abstract(参考訳): 正確な唇同期を実現しながら、アイデンティティの整合性を維持するリアルタイムビデオダビングは、依然として重要な課題である。
拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの制限に悩まされる一方、GANベースのソリューションは、リアルタイムのパフォーマンスのためにリップシンク精度やデンタルディテールを犠牲にする。
MuseTalkは,空間最適化と時空間データサンプリング戦略を通じて,このトレードオフを解決する新しい2段階トレーニングフレームワークである。
1) 顔の抽象的事前訓練の段階では、参照ソースのポーズペアを時間的に整列し、アイデンティティを保ちながら冗長な特徴干渉を排除したInformative Frame Smplingを提案する。
2) 動的マージンサンプリングを用いて, 音声・視覚同期と歯の明瞭さのバランスをとり, 最適な唇運動領域を空間的に選択する。
NVIDIA V100 GPU上で256*256の解像度で30FPS出力を提供する。
大規模な実験により、MuseTalkは、同等のリップシンク精度を達成しつつ、視覚的忠実度において最先端の手法より優れていることが示された。
% コードとモデルは受理時に公開されます。
コードは \href{https://github.com/TMElyralab/MuseTalk}{https://github.com/TMElyralab/MuseTalk} で公開されている。
関連論文リスト
- High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - HyperLips: Hyper Control Lips with High Resolution Decoder for Talking
Face Generation [21.55822398346139]
HyperLipsは2段階のフレームワークで、唇を制御するハイパーネットワークと、高忠実度顔のレンダリングを行う高解像度デコーダで構成されている。
第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。
第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
論文 参考訳(メタデータ) (2023-10-09T13:45:21Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z) - Pose-Controllable Talking Face Generation by Implicitly Modularized
Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。
我々は1枚の写真のみを識別基準として生の顔画像を操作する。
私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文 参考訳(メタデータ) (2021-04-22T15:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。