Fugu-MT 論文翻訳(概要): CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

論文の概要: CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing

arxiv url: http://arxiv.org/abs/2604.12292v1
Date: Tue, 14 Apr 2026 05:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 19:11:32.251909
Title: CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing
Title（参考訳）: CoSyncDiT:映画ダビング用認知同期拡散変換器
Authors: Gaoxiang Cong, Liang Li, Jiaxin Ye, Zhedong Zhang, Hongming Shan, Yuankai Qi, Qingming Huang,
Abstract要約: 映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
参考スコア（独自算出の注目度）: 76.74048814837336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Movie dubbing aims to synthesize speech that preserves the vocal identity of a reference audio while synchronizing with the lip movements in a target video. Existing methods fail to achieve precise lip-sync and lack naturalness due to explicit alignment at the duration level. While implicit alignment solutions have emerged, they remain susceptible to interference from the reference audio, triggering timbre and pronunciation degradation in in-the-wild scenarios. In this paper, we propose a novel flow matching-based movie dubbing framework driven by the Cognitive Synchronous Diffusion Transformer (CoSync-DiT), inspired by the cognitive process of professional actors. This architecture progressively guides the noise-to-speech generative trajectory by executing acoustic style adapting, fine-grained visual calibrating, and time-aware context aligning. Furthermore, we design the Joint Semantic and Alignment Regularization (JSAR) mechanism to simultaneously constrain frame-level temporal consistency on the contextual outputs and semantic consistency on the flow hidden states, ensuring robust alignment. Extensive experiments on both standard benchmarks and challenging in-the-wild dubbing benchmarks demonstrate that our method achieves the state-of-the-art performance across multiple metrics.
Abstract（参考訳）: 映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。暗黙のアライメントソリューションが登場したが、それらは参照オーディオからの干渉の影響を受けず、音色や発音の劣化を引き起こす。本稿では,プロアクターの認知プロセスに触発された認知同期拡散変換器(CoSync-DiT)によって駆動される新しいフローマッチング型映画ダビングフレームワークを提案する。このアーキテクチャは、アコースティックスタイル適応、きめ細かいビジュアルキャリブレーション、タイムアウェアコンテキストアライメントを実行することで、ノイズから音声への生成軌道を段階的にガイドする。さらに,JSAR(Joint Semantic and Alignment Regularization)機構を設計し,コンテキスト出力のフレームレベルの時間的一貫性とフロー隠蔽状態のセマンティック一貫性を同時に制約し,ロバストなアライメントを確保する。提案手法は, 標準ベンチマークと高精度ダビングベンチマークの両方において, 複数の指標をまたいだ最先端性能を実現することを実証する。

関連論文リスト

InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。 HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文参考訳（メタデータ） (2025-08-19T17:55:23Z)
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-05T13:57:03Z)
OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers [18.187498205054748]
我々は,多様な視覚シナリオを対象とした共通唇同期フレームワークであるOmniSyncを紹介する。提案手法では,Diffusion Transformerモデルを用いたマスクのないトレーニングパラダイムを導入し,マスクを明示せずに直接フレーム編集を行う。 AI生成ビデオにおけるリップシンクのための最初の評価スイートであるAICLipSync Benchmarkも確立した。
論文参考訳（メタデータ） (2025-05-27T17:20:38Z)
FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [81.3306413498174]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。ダビングのための大規模言語モデル(LLM)に基づくフローマッチングアーキテクチャであるFlowDubberを提案する。
論文参考訳（メタデータ） (2025-05-02T13:30:19Z)
Identity-Preserving Video Dubbing Using Motion Warping [26.10803670509977]
ビデオダビングは、レファレンスビデオと駆動オーディオ信号からリアルでリップシンクされたビデオを合成することを目的としている。本稿では,ビデオダビングのためのIPTalkerを提案する。 IPTalkerは、リアリズム、リップ同期、アイデンティティ保持の観点から、既存のアプローチを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-08T16:06:21Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。