論文の概要: From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing
- arxiv url: http://arxiv.org/abs/2512.25066v1
- Date: Wed, 31 Dec 2025 18:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.750232
- Title: From Inpainting to Editing: A Self-Bootstrapping Framework for Context-Rich Visual Dubbing
- Title(参考訳): インペイントから編集へ - コンテキストリッチなビジュアルダビングのためのセルフブートストラッピングフレームワーク
- Authors: Xu He, Haoxian Zhang, Hejia Chen, Changyuan Zheng, Liyang Chen, Songlin Tang, Jiehui Huang, Xiaoqiang Liu, Pengfei Wan, Zhiyong Wu,
- Abstract要約: そこで本稿では,不適切な塗布作業から映像間編集問題への視覚的ダビングを再構成するセルフブートストラップフレームワークを提案する。
我々のアプローチでは、まずデータジェネレータとしてDiffusion Transformerを使用し、理想的なトレーニングデータを合成する。
DiDubTベースのオーディオ駆動エディタは、これらのペアをエンドツーエンドでトレーニングし、完全な入力ビデオフレームを活用して、正確なオーディオ駆動リップ修正のみに集中する。
- 参考スコア(独自算出の注目度): 24.998261989251976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-driven visual dubbing aims to synchronize a video's lip movements with new speech, but is fundamentally challenged by the lack of ideal training data: paired videos where only a subject's lip movements differ while all other visual conditions are identical. Existing methods circumvent this with a mask-based inpainting paradigm, where an incomplete visual conditioning forces models to simultaneously hallucinate missing content and sync lips, leading to visual artifacts, identity drift, and poor synchronization. In this work, we propose a novel self-bootstrapping framework that reframes visual dubbing from an ill-posed inpainting task into a well-conditioned video-to-video editing problem. Our approach employs a Diffusion Transformer, first as a data generator, to synthesize ideal training data: a lip-altered companion video for each real sample, forming visually aligned video pairs. A DiT-based audio-driven editor is then trained on these pairs end-to-end, leveraging the complete and aligned input video frames to focus solely on precise, audio-driven lip modifications. This complete, frame-aligned input conditioning forms a rich visual context for the editor, providing it with complete identity cues, scene interactions, and continuous spatiotemporal dynamics. Leveraging this rich context fundamentally enables our method to achieve highly accurate lip sync, faithful identity preservation, and exceptional robustness against challenging in-the-wild scenarios. We further introduce a timestep-adaptive multi-phase learning strategy as a necessary component to disentangle conflicting editing objectives across diffusion timesteps, thereby facilitating stable training and yielding enhanced lip synchronization and visual fidelity. Additionally, we propose ContextDubBench, a comprehensive benchmark dataset for robust evaluation in diverse and challenging practical application scenarios.
- Abstract(参考訳): 音声駆動型視覚ダビングは、ビデオの唇の動きと新しい音声を同期させることを目的としているが、理想的な訓練データがないため、基本的には課題である。
既存の手法では、マスクベースの塗装パラダイムによってこれを回避し、不完全な視覚条件付けでは、モデルが不足したコンテンツを同時に幻覚させ、唇を同期させ、視覚的アーティファクト、アイデンティティのドリフト、同期不良につながる。
本研究では,不適切な塗布作業から映像編集問題への視覚的ダビングを再構成する,新しいセルフブートストラップフレームワークを提案する。
提案手法では,まずデータ生成装置としてDiffusion Transformerを用いて,実検体毎の唇付き伴奏映像を合成し,視覚的に整列したビデオペアを形成する。
DiTベースのオーディオ駆動エディタは、これらのペアをエンドツーエンドでトレーニングし、完全かつ整列された入力ビデオフレームを活用して、正確なオーディオ駆動リップ修正のみに集中する。
この完全なフレーム整列入力条件付けは、エディターにとってリッチな視覚的コンテキストを形成し、完全なアイデンティティキュー、シーンインタラクション、継続的な時空間ダイナミクスを提供する。
このリッチなコンテキストを活用することで、当社の手法は、高精度なリップシンク、忠実なアイデンティティ保存、そして、挑戦的なインザワイルドシナリオに対する例外的な堅牢性を実現することができる。
さらに,時間適応型多相学習戦略を導入して,相反する編集対象を拡散時間に分散させ,安定した訓練をしやすくし,唇の同期と視覚的忠実度を高める。
さらに,多様な,かつ困難なアプリケーションのシナリオにおいて,堅牢な評価を行うための包括的なベンチマークデータセットであるContextDubBenchを提案する。
関連論文リスト
- SyncAnyone: Implicit Disentanglement via Progressive Self-Correction for Lip-Syncing in the wild [16.692450893925148]
SyncAnyoneは、2段階の学習フレームワークで、正確なモーションモデリングと高い視覚的忠実度を同時に実現している。
ソースビデオからリップ同期映像を合成して擬似ペアリングトレーニングサンプルを作成するデータ生成パイプラインを開発した。
さらに、この合成データに基づいてステージ2モデルを調整し、正確な唇編集と背景の整合性を向上する。
論文 参考訳(メタデータ) (2025-12-25T16:49:40Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。
無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。
HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文 参考訳(メタデータ) (2025-08-19T17:55:23Z) - Video Editing for Audio-Visual Dubbing [11.063156506583562]
EdiDubは、ビジュアルダビングをコンテンツ対応編集タスクとして再構成する新しいフレームワークである。
それは、忠実で正確な修正を保証するための特別な条件付けスキームを利用することで、オリジナルのビデオコンテキストを保存する。
論文 参考訳(メタデータ) (2025-05-29T12:56:09Z) - OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。
提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。
AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文 参考訳(メタデータ) (2025-05-27T17:20:38Z) - ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer [87.32518573172631]
ReSyncerは運動と外観を統合トレーニングで融合する。
パーソナライズされたパーソナライズされた微調整、ビデオ駆動のリップシンク、話すスタイルの転送、顔交換までサポートしています。
論文 参考訳(メタデータ) (2024-08-06T16:31:45Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。