論文の概要: DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization
- arxiv url: http://arxiv.org/abs/2603.14267v1
- Date: Sun, 15 Mar 2026 07:53:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.70995
- Title: DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization
- Title(参考訳): DiFlowDubber: クロスモーダルアライメントと同期による自動ビデオダビングのための離散フローマッチング
- Authors: Ngoc-Son Nguyen, Thanh V. T. Tran, Jeongsoo Choi, Hieu-Nghia Huynh-Nguyen, Truong-Son Hy, Van Nguyen,
- Abstract要約: ビデオダビングは、映画製作、マルチメディア制作、補助音声技術に広く応用されている。
既存のアプローチでは、限られたダビングデータセットを直接トレーニングするか、事前トレーニングされたテキスト音声(TTS)モデルに適応する2段階のパイプラインを採用する。
本稿では,事前学習したTSモデルからビデオ駆動ダビングへの知識伝達を効果的に行う,新しい2段階トレーニングフレームワークであるDiFlowDubberを提案する。
2つの主要なベンチマークデータセットの実験では、DiFlowDubberは、複数のメトリクスで過去のメソッドより優れていることが示されている。
- 参考スコア(独自算出の注目度): 16.192222723269925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video dubbing has broad applications in filmmaking, multimedia creation, and assistive speech technology. Existing approaches either train directly on limited dubbing datasets or adopt a two-stage pipeline that adapts pre-trained text-to-speech (TTS) models, which often struggle to produce expressive prosody, rich acoustic characteristics, and precise synchronization. To address these issues, we propose DiFlowDubber with a novel two-stage training framework that effectively transfers knowledge from a pre-trained TTS model to video-driven dubbing, with a discrete flow matching generative backbone. Specifically, we design a FaPro module that captures global prosody and stylistic cues from facial expressions and leverages this information to guide the modeling of subsequent speech attributes. To ensure precise speech-lip synchronization, we introduce a Synchronizer module that bridges the modality gap among text, video, and speech, thereby improving cross-modal alignment and generating speech that is temporally synchronized with lip movements. Experiments on two primary benchmark datasets demonstrate that DiFlowDubber outperforms previous methods across multiple metrics.
- Abstract(参考訳): ビデオダビングは、映画製作、マルチメディア制作、補助音声技術に広く応用されている。
既存のアプローチでは、限られたダビングデータセットを直接トレーニングするか、事前訓練されたテキスト音声(TTS)モデルに適応する2段階のパイプラインを採用する。
このような問題に対処するため,DyFlowDubberは,トレーニング済みのTSモデルからビデオ駆動ダビングへの知識伝達を効果的に行うための2段階のトレーニングフレームワークを,離散フローマッチング生成バックボーンで提案する。
具体的には、表情からグローバルな韻律やスタイリスティックな手がかりを捉えたFaProモジュールを設計し、この情報を利用してその後の音声属性のモデル化を指導する。
音声と音声の正確な同期を確保するため,テキスト,ビデオ,音声間のモダリティギャップを埋めるシンクロナイザモジュールを導入する。
2つの主要なベンチマークデータセットの実験では、DiFlowDubberは、複数のメトリクスで過去のメソッドより優れていることが示されている。
関連論文リスト
- FunCineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes [56.534404169212785]
FunCineForgeは、大規模なダビングデータセットのためのエンドツーエンド生産パイプラインと、さまざまな撮影シーン用に設計されたMLLMベースのダビングモデルで構成されている。
リッチアノテーションを用いた中国初のテレビダビングデータセットを構築し,その高品質性を実証する。
モノローグ,ナレーション,対話,マルチスピーカーシーンにおける実験により,我々のダビングモデルは音質,リップシンク,音色伝達,指示追従のSOTA手法より一貫して優れていた。
論文 参考訳(メタデータ) (2026-01-21T08:57:00Z) - SyncVoice: Towards Video Dubbing with Vision-Augmented Pretrained TTS Model [34.874153953305346]
ビデオダビングは、視覚内容と時間的に正確に一致した高忠実度音声を生成することを目的としている。
既存の手法は、音声の自然さと音声と視覚の同期の限界に悩まされている。
我々は、事前訓練されたテキスト音声(TTS)モデルに基づいて構築された、ヴィジュアライズされたビデオダビングフレームワークSyncVoiceを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:51:05Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - SyncSpeech: Low-Latency and Efficient Dual-Stream Text-to-Speech based on Temporal Masked Transformer [68.78023656892319]
本稿では、ストリーミング音声を同時に生成しながら、上流モデルからストリーミングテキスト入力を受信できる、双方向ストリームテキスト音声(TTS)モデルSyncSpeechを提案する。
SyncSpeechには次のような利点がある: 低レイテンシ、第2のテキストトークンの受信時にストリーミング音声を生成し始めるとき、高効率、そして、受信したテキストトークンに対応するすべての音声トークンを1ステップでデコードするとき、。
論文 参考訳(メタデータ) (2025-02-16T12:14:17Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。