論文の概要: SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild
- arxiv url: http://arxiv.org/abs/2512.21736v1
- Date: Thu, 25 Dec 2025 16:49:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:06:19.990866
- Title: SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild
- Title(参考訳): SyncAnyone:野生における脂質シンセサイジングのためのプログレッシブ・セルフコレクションによる誘引障害
- Authors: Xindi Zhang, Dechao Meng, Steven Xiao, Qi Wang, Peng Zhang, Bang Zhang,
- Abstract要約: SyncAnyoneは、2段階の学習フレームワークで、正確なモーションモデリングと高い視覚的忠実度を同時に実現している。
ソースビデオからリップ同期映像を合成して擬似ペアリングトレーニングサンプルを作成するデータ生成パイプラインを開発した。
さらに、この合成データに基づいてステージ2モデルを調整し、正確な唇編集と背景の整合性を向上する。
- 参考スコア(独自算出の注目度): 16.692450893925148
- License:
- Abstract: High-quality AI-powered video dubbing demands precise audio-lip synchronization, high-fidelity visual generation, and faithful preservation of identity and background. Most existing methods rely on a mask-based training strategy, where the mouth region is masked in talking-head videos, and the model learns to synthesize lip movements from corrupted inputs and target audios. While this facilitates lip-sync accuracy, it disrupts spatiotemporal context, impairing performance on dynamic facial motions and causing instability in facial structure and background consistency. To overcome this limitation, we propose SyncAnyone, a novel two-stage learning framework that achieves accurate motion modeling and high visual fidelity simultaneously. In Stage 1, we train a diffusion-based video transformer for masked mouth inpainting, leveraging its strong spatiotemporal modeling to generate accurate, audio-driven lip movements. However, due to input corruption, minor artifacts may arise in the surrounding facial regions and the background. In Stage 2, we develop a mask-free tuning pipeline to address mask-induced artifacts. Specifically, on the basis of the Stage 1 model, we develop a data generation pipeline that creates pseudo-paired training samples by synthesizing lip-synced videos from the source video and random sampled audio. We further tune the stage 2 model on this synthetic data, achieving precise lip editing and better background consistency. Extensive experiments show that our method achieves state-of-the-art results in visual quality, temporal coherence, and identity preservation under in-the wild lip-syncing scenarios.
- Abstract(参考訳): 高品質なAIによるビデオダビングは、正確なオーディオ-リップ同期、高忠実なビジュアル生成、アイデンティティとバックグラウンドの忠実な保存を必要とする。
既存のほとんどの方法は、口領域がトーキングヘッドビデオに隠されているマスクベースのトレーニング戦略に依存しており、モデルは劣化した入力とターゲットオーディオから唇の動きを合成することを学ぶ。
これによりリップシンク精度が向上するが、時空間的コンテキストを乱し、動的な顔の動きのパフォーマンスを損なうとともに、顔の構造や背景の一貫性が不安定になる。
この制限を克服するため、我々は2段階学習フレームワークSyncAnyoneを提案する。
ステージ1では,口面塗布用拡散型ビデオトランスフォーマを訓練し,その時空間の強いモデリングを活用して,正確な音声駆動唇の動きを生成する。
しかし、入力の破損により、周囲の顔領域や背景に小さなアーティファクトが発生する可能性がある。
ステージ2ではマスクによるアーティファクトに対処するマスクフリーチューニングパイプラインを開発した。
具体的には、ステージ1モデルに基づいて、ソースビデオとランダムサンプル音声からリップ同期映像を合成して擬似ペアリングトレーニングサンプルを作成するデータ生成パイプラインを開発する。
さらに、この合成データに基づいてステージ2モデルを調整し、正確な唇編集と背景の整合性を向上する。
広汎な実験により,本手法は視覚的品質,時間的コヒーレンス,アイデンティティの保存を,野生のリップシンキングのシナリオ下で達成することを示す。
関連論文リスト
- StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling [12.438835523353347]
拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの禁止に苦しむ。
MuseTalkは、遅延空間最適化とデータサンプリング戦略を通じて、このトレードオフを解決する新しい2段階のトレーニングフレームワークである。
MuseTalkは、潜在領域における効果的なオーディオ-視覚機能融合フレームワークを確立し、NVIDIA V100 GPU上で256*256の解像度で30 FPS出力を提供する。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。