論文の概要: UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios
- arxiv url: http://arxiv.org/abs/2603.03882v1
- Date: Wed, 04 Mar 2026 09:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.254523
- Title: UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios
- Title(参考訳): UniSync: チェナリングシナリオのための一般化可能かつ高忠実なリップシンクロナイゼーションを目指して
- Authors: Ruidi Fan, Yang Zhou, Siyuan Wang, Tian Yu, Yutong Jiang, Xusheng Liu,
- Abstract要約: リップ同期は、高品質なビデオダビングに欠かせない、与えられたオーディオにマッチするリアルな会話ビデオを生成することを目的としている。
多様なシナリオで高忠実度リップ同期を実現するための統合フレームワークUniSyncを提案する。
また、実世界の需要下でモデルを評価するためにRealWorld-LipSyncベンチマークを導入する。
- 参考スコア(独自算出の注目度): 20.228570359114105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip synchronization aims to generate realistic talking videos that match given audio, which is essential for high-quality video dubbing. However, current methods have fundamental drawbacks: mask-based approaches suffer from local color discrepancies, while mask-free methods struggle with global background texture misalignment. Furthermore, most methods struggle with diverse real-world scenarios such as stylized avatars, face occlusion, and extreme lighting conditions. In this paper, we propose UniSync, a unified framework designed for achieving high-fidelity lip synchronization in diverse scenarios. Specifically, UniSync uses a mask-free pose-anchored training strategy to keep head motion and eliminate synthesis color artifacts, while employing mask-based blending consistent inference to ensure structural precision and smooth blending. Notably, fine-tuning on compact but diverse videos empowers our model with exceptional domain adaptability, handling complex corner cases effectively. We also introduce the RealWorld-LipSync benchmark to evaluate models under real-world demands, which covers diverse application scenarios including both human faces and stylized avatars. Extensive experiments demonstrate that UniSync significantly outperforms state-of-the-art methods, advancing the field towards truly generalizable and production-ready lip synchronization.
- Abstract(参考訳): リップ同期は、高品質なビデオダビングに欠かせない、与えられたオーディオにマッチするリアルな会話ビデオを生成することを目的としている。
しかし、現在の手法には根本的な欠点があり、マスクベースのアプローチは局所的な色差に悩まされ、マスクフリー手法はグローバルな背景テクスチャのミスアライメントに悩まされる。
さらに、ほとんどの手法は、スタイル化されたアバター、顔の閉塞、極端な照明条件のような多様な現実のシナリオに苦しむ。
本論文では,多種多様なシナリオで高忠実度唇同期を実現するための統合フレームワークUniSyncを提案する。
具体的には、UniSyncはマスクなしのポーズアンコールトレーニング戦略を使用して、頭部の動きを保ち、合成色のアーティファクトを排除し、マスクベースのブレンドによる一貫した推論を採用して、構造的精度と滑らかなブレンディングを保証する。
特に、コンパクトだが多様なビデオの微調整は、複雑なコーナーケースを効果的に処理し、例外的なドメイン適応性を持つモデルに力を与えます。
また、RealWorld-LipSyncベンチマークを導入し、人間の顔とスタイル化されたアバターの両方を含む多様なアプリケーションシナリオをカバーする。
大規模な実験により、Unixは最先端の手法を著しく上回り、真に一般化可能でプロダクション対応のリップシンセサイザーへとフィールドを前進させた。
関連論文リスト
- From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing [24.998261989251976]
そこで本稿では,不適切な塗布作業から映像間編集問題への視覚的ダビングを再構成するセルフブートストラップフレームワークを提案する。
我々のアプローチでは、まずデータジェネレータとしてDiffusion Transformerを使用し、理想的なトレーニングデータを合成する。
DiDubTベースのオーディオ駆動エディタは、これらのペアをエンドツーエンドでトレーニングし、完全な入力ビデオフレームを活用して、正確なオーディオ駆動リップ修正のみに集中する。
論文 参考訳(メタデータ) (2025-12-31T18:58:30Z) - SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild [16.692450893925148]
SyncAnyoneは、2段階の学習フレームワークで、正確なモーションモデリングと高い視覚的忠実度を同時に実現している。
ソースビデオからリップ同期映像を合成して擬似ペアリングトレーニングサンプルを作成するデータ生成パイプラインを開発した。
さらに、この合成データに基づいてステージ2モデルを調整し、正確な唇編集と背景の整合性を向上する。
論文 参考訳(メタデータ) (2025-12-25T16:49:40Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - UniSync: A Unified Framework for Audio-Visual Synchronization [7.120340851879775]
We present UniSync, a novel approach for a audio-visual sync using embedded similarities。
我々は、差分に基づく損失成分と、話者間非同期ペアによる対照的な学習フレームワークを強化する。
UniSyncは、標準データセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-03-20T17:16:03Z) - SimVS: Simulating World Inconsistencies for Robust View Synthesis [102.83898965828621]
本稿では、生成ビデオモデルを利用して、キャプチャ中に起こりうる世界の不整合をシミュレートする手法を提案する。
我々の世界シミュレーション戦略は、現実のシーンのバリエーションを扱う上で、従来の拡張手法よりも大幅に優れていることを実証する。
論文 参考訳(メタデータ) (2024-12-10T17:35:12Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - StyleSync: High-Fidelity Generalized and Personalized Lip Sync in
Style-based Generator [85.40502725367506]
高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。
具体的には、所定の顔の詳細を保存したマスク誘導空間情報符号化モジュールを設計する。
また,限られたフレームのみにスタイル空間とジェネレータの改良を導入することで,パーソナライズされたリップシンクを実現する。
論文 参考訳(メタデータ) (2023-05-09T13:38:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。