論文の概要: KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution
- arxiv url: http://arxiv.org/abs/2505.00497v1
- Date: Thu, 01 May 2025 12:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.304328
- Title: KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution
- Title(参考訳): KeySync: 高分解能リークフリーリップ同期のためのロバストアプローチ
- Authors: Antoni Bigata, Rodrigo Mira, Stella Bounareli, Michał Stypułkowski, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic,
- Abstract要約: リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。
KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。
以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
- 参考スコア(独自算出の注目度): 32.124841838431166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lip synchronization, known as the task of aligning lip movements in an existing video with new input audio, is typically framed as a simpler variant of audio-driven facial animation. However, as well as suffering from the usual issues in talking head generation (e.g., temporal consistency), lip synchronization presents significant new challenges such as expression leakage from the input video and facial occlusions, which can severely impact real-world applications like automated dubbing, but are often neglected in existing works. To address these shortcomings, we present KeySync, a two-stage framework that succeeds in solving the issue of temporal consistency, while also incorporating solutions for leakage and occlusions using a carefully designed masking strategy. We show that KeySync achieves state-of-the-art results in lip reconstruction and cross-synchronization, improving visual quality and reducing expression leakage according to LipLeak, our novel leakage metric. Furthermore, we demonstrate the effectiveness of our new masking approach in handling occlusions and validate our architectural choices through several ablation studies. Code and model weights can be found at https://antonibigata.github.io/KeySync.
- Abstract(参考訳): リップ同期は、既存のビデオの唇の動きを新しい入力オーディオと整列させるタスクとして知られており、通常、音声駆動の顔アニメーションのより単純なバリエーションとしてフレーム化される。
しかし、音声ヘッド生成(例えば、時間的一貫性)の通常の問題と同様に、リップ同期は入力ビデオからの表情の漏れや顔の閉塞といった重要な新しい課題を呈し、これは自動ダビングのような現実世界のアプリケーションに深刻な影響を及ぼすが、既存の作品では無視されることが多い。
これらの欠点に対処するために、キーシンク(KeySync)は、時間的一貫性の問題を解決するのに成功する2段階のフレームワークであると同時に、慎重に設計されたマスキング戦略を用いて、漏れや隠蔽の解決策も取り入れている。
新たなリーク指標であるLipLeakによれば,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を実現している。
さらに,オクルージョン処理における新しいマスキング手法の有効性を実証し,いくつかのアブレーション研究を通じてアーキテクチャ選択の有効性を検証した。
コードとモデルの重み付けはhttps://antonibigata.github.io/KeySyncで確認できる。
関連論文リスト
- Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling [12.438835523353347]
拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの禁止に苦しむ。
MuseTalkは、遅延空間最適化とデータサンプリング戦略を通じて、このトレードオフを解決する新しい2段階のトレーニングフレームワークである。
MuseTalkは、潜在領域における効果的なオーディオ-視覚機能融合フレームワークを確立し、NVIDIA V100 GPU上で256*256の解像度で30 FPS出力を提供する。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - SwapTalk: Audio-Driven Talking Face Generation with One-Shot Customization in Latent Space [13.59798532129008]
我々は,同じ潜在空間における顔交換と唇同期の両タスクを実現する,革新的な統一フレームワークSwapTalkを提案する。
生成した顔ビデオの時系列上でのアイデンティティ一貫性をより包括的に評価するための新しいアイデンティティ一貫性指標を提案する。
HDTF実験の結果,ビデオ品質,リップ同期精度,顔スワップの忠実度,アイデンティティの整合性など,既存の手法をはるかに上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-09T09:22:09Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - Data standardization for robust lip sync [10.235718439446044]
既存のリップシンクメソッドは、野生では堅牢ではない。
重要な原因の1つは、視覚入力側の要因を逸脱させることであり、唇の動き情報を抽出することが困難である。
本稿では,リップシンクのための視覚入力を標準化するデータ標準化パイプラインを提案する。
論文 参考訳(メタデータ) (2022-02-13T04:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。