論文の概要: StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing
- arxiv url: http://arxiv.org/abs/2509.21887v1
- Date: Fri, 26 Sep 2025 05:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.197474
- Title: StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing
- Title(参考訳): StableDub: 汎用的で効率的なビジュアルダビングのための拡散処理
- Authors: Liyang Chen, Tianze Zhou, Xu He, Boshi Tang, Zhiyong Wu, Yang Huang, Yang Wu, Zhongqian Sun, Wei Yang, Helen Meng,
- Abstract要約: 視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
- 参考スコア(独自算出の注目度): 63.72095377128904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual dubbing task aims to generate mouth movements synchronized with the driving audio, which has seen significant progress in recent years. However, two critical deficiencies hinder their wide application: (1) Audio-only driving paradigms inadequately capture speaker-specific lip habits, which fail to generate lip movements similar to the target avatar; (2) Conventional blind-inpainting approaches frequently produce visual artifacts when handling obstructions (e.g., microphones, hands), limiting practical deployment. In this paper, we propose StableDub, a novel and concise framework integrating lip-habit-aware modeling with occlusion-robust synthesis. Specifically, building upon the Stable-Diffusion backbone, we develop a lip-habit-modulated mechanism that jointly models phonemic audio-visual synchronization and speaker-specific orofacial dynamics. To achieve plausible lip geometries and object appearances under occlusion, we introduce the occlusion-aware training strategy by explicitly exposing the occlusion objects to the inpainting process. By incorporating the proposed designs, the model eliminates the necessity for cost-intensive priors in previous methods, thereby exhibiting superior training efficiency on the computationally intensive diffusion-based backbone. To further optimize training efficiency from the perspective of model architecture, we introduce a hybrid Mamba-Transformer architecture, which demonstrates the enhanced applicability in low-resource research scenarios. Extensive experimental results demonstrate that StableDub achieves superior performance in lip habit resemblance and occlusion robustness. Our method also surpasses other methods in audio-lip sync, video quality, and resolution consistency. We expand the applicability of visual dubbing methods from comprehensive aspects, and demo videos can be found at https://stabledub.github.io.
- Abstract(参考訳): 視覚的ダビングタスクは、近年大きな進歩を遂げている運転音声と同期した口の動きを生成することを目的としている。
しかし,(1)聴覚のみの運転パラダイムは,ターゲットアバターと同じような唇の動きを生じない,話者固有の唇習慣を適切に捉えていない,(2)従来の視覚障害者のアプローチは,障害(例えばマイクロフォンや手)に対処する際の視覚的アーチファクトを頻繁に生成し,実際の展開を制限している,という2つの重要な欠点がある。
本稿では,口唇自覚モデルとオクルージョン・ロバスト合成を組み合わせた,新規で簡潔なフレームワークであるStableDubを提案する。
具体的には、安定拡散バックボーンをベースとして、音声-視覚同期と話者固有の口腔動態を共同でモデル化するリップバイザード変調機構を開発する。
本研究は,オクルージョン対象を塗布プロセスに明示的に露出させることで,オクルージョン・アウェア・トレーニング・ストラテジーを導入することを目的とする。
提案した設計を取り入れることで,従来の手法ではコスト集約的な事前処理の必要性を排除し,計算集約的な拡散ベースバックボーンのトレーニング効率が向上する。
モデルアーキテクチャの観点から、トレーニング効率をさらに最適化するために、低リソース研究シナリオにおける適用性の向上を示すハイブリッドなMamba-Transformerアーキテクチャを導入する。
以上の結果から,StableDubは口唇習慣の類似性や咬合力に優れていたことが示唆された。
また,オーディオ-リップ同期,ビデオ品質,解像度の整合性など,他の手法を超越した手法を提案する。
視覚的なダビング手法の適用範囲を包括的側面から拡大し、デモビデオはhttps://stabledub.github.io.comで見ることができる。
関連論文リスト
- KSDiff: Keyframe-Augmented Speech-Aware Dual-Path Diffusion for Facial Animation [4.952724424448834]
KSDiffはKeyframe-Augmented Speech-Aware Dual-Path Diffusionフレームワークである。
表現関連と頭置関連の機能をアンタングルにし、自動回帰的キーフレーム設定学習モジュールは最も有能な動きフレームを予測する。
HDTFとVoxCelebの実験では、KSDiffの最先端性能が証明され、唇の同期精度と頭部の自然さが向上した。
論文 参考訳(メタデータ) (2025-09-24T13:54:52Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - KeySync: A Robust Approach for Leakage-free Lip Synchronization in High Resolution [32.124841838431166]
リップ同期は、入力ビデオからの表現リークのような重要な新しい課題を提示する。
KeySyncは、時間的一貫性の問題を解決するのに成功する2段階のフレームワークです。
以上の結果から,KeySyncは口唇再建と交叉同期を行い,視覚的品質の向上と表現リークの低減を図った。
論文 参考訳(メタデータ) (2025-05-01T12:56:17Z) - SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。
我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文 参考訳(メタデータ) (2025-02-17T07:29:36Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - SAiD: Speech-driven Blendshape Facial Animation with Diffusion [6.4271091365094515]
大規模なビジュアルオーディオデータセットが不足しているため、音声駆動の3D顔アニメーションは困難である。
拡散モデル (SAiD) を用いた音声駆動型3次元顔アニメーションを提案する。
論文 参考訳(メタデータ) (2023-12-25T04:40:32Z) - Audio-driven Talking Face Generation with Stabilized Synchronization Loss [60.01529422759644]
トーキング・フェイスジェネレーションは、正確な唇の同期と高い視覚的品質でリアルなビデオを作成することを目的としている。
まずサイレント・リップ・ジェネレータを導入することでリップリーク問題に対処する。
実験の結果,我々のモデルは視覚的品質と唇の同期の両方において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - Towards Realistic Visual Dubbing with Heterogeneous Sources [22.250010330418398]
口唇の動きを任意の音声入力と同期させることがほとんどない。
異種データのマイニングに高い柔軟性を持つ簡易で効率的な2段階のフレームワークを提案する。
本手法は,2段階のサブネットワークにおけるトレーニングコーパスを独立的に活用することを可能にする。
論文 参考訳(メタデータ) (2022-01-17T07:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。