論文の概要: FlashLips: 100-FPS Mask-Free Latent Lip-Sync using Reconstruction Instead of Diffusion or GANs
- arxiv url: http://arxiv.org/abs/2512.20033v1
- Date: Tue, 23 Dec 2025 03:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.739009
- Title: FlashLips: 100-FPS Mask-Free Latent Lip-Sync using Reconstruction Instead of Diffusion or GANs
- Title(参考訳): FlashLips:拡散やGANの代わりに再構成を用いた100-FPSマスクレス遅延リップシンク
- Authors: Andreas Zinonos, Michał Stypułkowski, Antoni Bigata, Stavros Petridis, Maja Pantic, Nikita Drobyshev,
- Abstract要約: FlashLipsは、レンダリングからリップコントロールを分離し、1つのGPU上で100FPS以上で動作するリアルタイムパフォーマンスを実現する、2段階のマスフリーリップ同期システムである。
ステージ1はコンパクトでワンステップのラテントスペースエディタで、参照ID、マスクされたターゲットフレーム、低次元リッププレースベクトルを用いて画像を再構成する。
ステージ2は、口唇位置ベクトルを音声から予測するために、フローマッチング目的で訓練されたオーディオ・ツー・プレイス・トランスフォーマーである。
- 参考スコア(独自算出の注目度): 23.772091290332188
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present FlashLips, a two-stage, mask-free lip-sync system that decouples lips control from rendering and achieves real-time performance running at over 100 FPS on a single GPU, while matching the visual quality of larger state-of-the-art models. Stage 1 is a compact, one-step latent-space editor that reconstructs an image using a reference identity, a masked target frame, and a low-dimensional lips-pose vector, trained purely with reconstruction losses - no GANs or diffusion. To remove explicit masks at inference, we use self-supervision: we generate mouth-altered variants of the target image, that serve as pseudo ground truth for fine-tuning, teaching the network to localize edits to the lips while preserving the rest. Stage 2 is an audio-to-pose transformer trained with a flow-matching objective to predict lips-poses vectors from speech. Together, these stages form a simple and stable pipeline that combines deterministic reconstruction with robust audio control, delivering high perceptual quality and faster-than-real-time speed.
- Abstract(参考訳): FlashLipsは2段階のマスクレスリップ同期システムで、リップ制御をレンダリングから切り離し、1つのGPU上で100FPS以上のリアルタイムパフォーマンスを実現し、より大きな最先端モデルの視覚的品質に適合する。
ステージ1はコンパクトでワンステップのラテントスペースエディタで、参照ID、マスクされたターゲットフレーム、低次元のリッププレースベクトルを使って画像を再構成する。
推測時に明示的なマスクを除去するために、私たちは自己スーパービジョンを使用する: ターゲット画像の口修正された変種を生成し、それは微調整のための疑似基底真理として機能し、残りの部分を保存しながら、ネットワークに唇への編集をローカライズするように教える。
ステージ2は、口唇位置ベクトルを音声から予測するために、フローマッチング目的で訓練されたオーディオ・ツー・プレイス・トランスフォーマーである。
これらのステージはシンプルで安定したパイプラインを形成し、決定論的再構成と堅牢なオーディオ制御を組み合わせることで、高い知覚品質とリアルタイム速度を実現する。
関連論文リスト
- DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。
地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。
我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文 参考訳(メタデータ) (2025-12-10T08:31:28Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors [64.54220123913154]
本稿では,画像から映像への効率のよい生成問題としてFramePainterを紹介した。
軽量のスパース制御エンコーダのみを使用して編集信号を注入する。
従来の最先端の手法をはるかに少ないトレーニングデータで上回ります。
論文 参考訳(メタデータ) (2025-01-14T16:09:16Z) - MuseTalk: Real-Time High-Fidelity Video Dubbing via Spatio-Temporal Sampling [12.438835523353347]
拡散に基づく手法は高い視覚的忠実性を達成するが、計算コストの禁止に苦しむ。
MuseTalkは、遅延空間最適化とデータサンプリング戦略を通じて、このトレードオフを解決する新しい2段階のトレーニングフレームワークである。
MuseTalkは、潜在領域における効果的なオーディオ-視覚機能融合フレームワークを確立し、NVIDIA V100 GPU上で256*256の解像度で30 FPS出力を提供する。
論文 参考訳(メタデータ) (2024-10-14T03:22:26Z) - Lazy Diffusion Transformer for Interactive Image Editing [79.75128130739598]
部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
論文 参考訳(メタデータ) (2024-04-18T17:59:27Z) - StyleLipSync: Style-based Personalized Lip-sync Video Generation [2.9914612342004503]
StyleLipSyncは、スタイルベースのパーソナライズされたリップ同期ビデオ生成モデルである。
我々のモデルはゼロショット設定でも正確なリップシンクビデオを生成することができる。
論文 参考訳(メタデータ) (2023-04-30T16:38:42Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。