Fugu-MT 論文翻訳(概要): MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting

論文の概要: MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting

arxiv url: http://arxiv.org/abs/2410.10122v2
Date: Wed, 16 Oct 2024 04:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:54:14.449745
Title: MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting
Title（参考訳）: MuseTalk: リアルタイムな高品質なリップシンクロナイゼーション
Authors: Yue Zhang, Minhao Liu, Zhaokang Chen, Bin Wu, Yubin Zeng, Chao Zhan, Yingjie He, Junxin Huang, Wenjiang Zhou,
Abstract要約: MuseTalkは、変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成する。オンラインのフェース生成をサポートする。256x256で30 FPS以上で、起動遅延は無視できる。
参考スコア（独自算出の注目度）: 12.852715177163608
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Achieving high-resolution, identity consistency, and accurate lip-speech synchronization in face visual dubbing presents significant challenges, particularly for real-time applications like live video streaming. We propose MuseTalk, which generates lip-sync targets in a latent space encoded by a Variational Autoencoder, enabling high-fidelity talking face video generation with efficient inference. Specifically, we project the occluded lower half of the face image and itself as an reference into a low-dimensional latent space and use a multi-scale U-Net to fuse audio and visual features at various levels. We further propose a novel sampling strategy during training, which selects reference images with head poses closely matching the target, allowing the model to focus on precise lip movement by filtering out redundant information. Additionally, we analyze the mechanism of lip-sync loss and reveal its relationship with input information volume. Extensive experiments show that MuseTalk consistently outperforms recent state-of-the-art methods in visual fidelity and achieves comparable lip-sync accuracy. As MuseTalk supports the online generation of face at 256x256 at more than 30 FPS with negligible starting latency, it paves the way for real-time applications.
Abstract（参考訳）: 顔のダビングにおける高解像度、アイデンティティの整合性、正確な唇音声同期を実現することは、特にライブビデオストリーミングのようなリアルタイムアプリケーションにおいて、大きな課題となる。変分オートエンコーダによって符号化された潜時空間でリップシンクターゲットを生成するMuseTalkを提案する。具体的には、顔画像の下半分とそれ自身を低次元の潜在空間への参照として投影し、マルチスケールのU-Netを用いて様々なレベルで音声と視覚的特徴を融合させる。さらに,学習中の新たなサンプリング手法を提案する。この手法では,ターゲットと密接に一致した頭部ポーズの参照画像を選択し,冗長な情報をフィルタリングすることで,正確な唇の動きに焦点を合わせることができる。さらに,リップシンク損失のメカニズムを分析し,入力情報量との関係を明らかにする。大規模な実験により、MuseTalkは視覚的忠実度において最新の最先端の手法を一貫して上回り、同等のリップシンク精度を達成している。 MuseTalkが256x256のオンラインフェースを30FPS以上でサポートし、起動遅延を無視できるので、リアルタイムアプリケーションへの道を開くことができる。

関連論文リスト

SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild [16.692450893925148]
SyncAnyoneは、2段階の学習フレームワークで、正確なモーションモデリングと高い視覚的忠実度を同時に実現している。ソースビデオからリップ同期映像を合成して擬似ペアリングトレーニングサンプルを作成するデータ生成パイプラインを開発した。さらに、この合成データに基づいてステージ2モデルを調整し、正確な唇編集と背景の整合性を向上する。
論文参考訳（メタデータ） (2025-12-25T16:49:40Z)
StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。 Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文参考訳（メタデータ） (2025-09-26T05:23:31Z)
InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。 HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文参考訳（メタデータ） (2025-08-19T17:55:23Z)
MirrorMe: Towards Realtime and High Fidelity Audio-Driven Halfbody Animation [21.216297567167036]
MirrorMeは、LTXビデオモデル上に構築されたリアルタイムで制御可能なフレームワークである。 MirrorMeは映像を空間的に時間的に圧縮し、効率的な遅延空間をデノイングする。 EMTDベンチマークの実験では、MirrorMeの忠実さ、リップシンク精度、時間的安定性が実証されている。
論文参考訳（メタデータ） (2025-06-27T09:57:23Z)
OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [13.623360048766603]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。 AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文参考訳（メタデータ） (2025-05-27T17:20:38Z)
KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。 KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文参考訳（メタデータ） (2025-05-01T12:56:17Z)
Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文参考訳（メタデータ） (2025-03-09T02:36:31Z)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文参考訳（メタデータ） (2024-08-10T02:58:28Z)
RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文参考訳（メタデータ） (2024-06-26T12:09:59Z)
SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。 HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文参考訳（メタデータ） (2024-05-09T09:22:09Z)
Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。 3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文参考訳（メタデータ） (2024-05-07T13:55:50Z)
SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文参考訳（メタデータ） (2023-12-25T04:40:32Z)
HyperLips: Hyper Control Lips with High Resolution Decoder for Talking Face Generation [21.55822398346139]
HyperLipsは2段階のフレームワークで、唇を制御するハイパーネットワークと、高忠実度顔のレンダリングを行う高解像度デコーダで構成されている。第1段階では,ハイパーネットワークを用いたベースフェイス生成ネットワークを構築し,音声による視覚的顔情報の符号化遅延コードを制御する。第2段階では,高精細デコーダを用いて高品質な顔映像を得る。
論文参考訳（メタデータ） (2023-10-09T13:45:21Z)
Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-18T15:50:04Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文参考訳（メタデータ） (2022-12-09T16:32:46Z)
SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2021-08-31T05:54:16Z)
Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation [96.66010515343106]
ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。我々は1枚の写真のみを識別基準として生の顔画像を操作する。私達のモデルに極度な視野の堅牢性および話す表面前部化を含む複数の高度の機能があります。
論文参考訳（メタデータ） (2021-04-22T15:10:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。