論文の概要: JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
- arxiv url: http://arxiv.org/abs/2601.22143v1
- Date: Thu, 29 Jan 2026 18:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.103909
- Title: JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
- Title(参考訳): JUST-DUB-IT:ジョイント・オーディオ・ビジュアル・ディフュージョンによるビデオダビング
- Authors: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or,
- Abstract要約: 軽量なLoRAによるビデオダビングにオーディオ・ビデオ拡散モデルを適用する単一モデルアプローチを提案する。
言語スイッチを1つのクリップで生成し、その半分の顔と音声を他の半分の言語にマッチさせる。
提案手法は,既存のダビングパイプラインと比較して,視覚的忠実度,唇の同期性,ロバスト性を改善した高品質なビデオを生成する。
- 参考スコア(独自算出の注目度): 47.70095297438178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.
- Abstract(参考訳): オーディオ・ビジュアル・ファンデーション・モデルは、音声と視覚コンテンツを共同で生成するために事前訓練されているが、最近、マルチモーダル生成と編集をモデル化し、下流タスクの新たな機会を開放する前例のない能力を示した。
これらのタスクの中では、ビデオダビングはそのような先例から大きな恩恵を受ける可能性があるが、既存のソリューションの多くは、現実世界の設定に苦しむ複雑なタスク固有のパイプラインに依存している。
そこで本研究では,軽量なLoRAを用いたビデオダビングに基礎的なオーディオ・ビデオ拡散モデルを適用する,単一モデルアプローチを提案する。
LoRAは、翻訳された音声と同期された顔の動きを共同で生成しながら、入力されたオーディオビデオにモデルを条件付けすることができる。
このLoRAをトレーニングするために、生成モデル自体を活用して、同一話者のペア化された多言語映像を合成する。
具体的には、1つのクリップで言語スイッチ付き多言語ビデオを生成し、残りの半分の言語に合うように顔と音声を塗布する。
音声・視覚モデルの豊かな生成モデルを活用することで、複雑な動きや実世界のダイナミクスに頑健なまま、話者のアイデンティティと唇の同期を保ちます。
提案手法は,既存のダビングパイプラインと比較して,視覚的忠実度,唇の同期性,ロバスト性を改善した高品質なビデオを生成する。
関連論文リスト
- LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。
より広範な理解のために多言語テキストエンコーダを用いる。
LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文 参考訳(メタデータ) (2026-01-06T18:24:41Z) - SyncVoice: Towards Video Dubbing with Vision-Augmented Pretrained TTS Model [34.874153953305346]
ビデオダビングは、視覚内容と時間的に正確に一致した高忠実度音声を生成することを目的としている。
既存の手法は、音声の自然さと音声と視覚の同期の限界に悩まされている。
我々は、事前訓練されたテキスト音声(TTS)モデルに基づいて構築された、ヴィジュアライズされたビデオダビングフレームワークSyncVoiceを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:51:05Z) - Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation [5.304004483404346]
Oviは、2つのモードを単一の生成プロセスとしてモデル化するオーディオビデオ生成の統一パラダイムである。
何十万時間もの生のオーディオをゼロから学習し、現実的な音響効果を生み出すことを学ぶ。
本モデルでは,自然音声による映像ストーリーテリングと,映像レベルの映像クリップを制作し,コンテキストマッチングの精度の高い音響効果を実現する。
論文 参考訳(メタデータ) (2025-09-30T21:03:50Z) - Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation [27.20097004987987]
ビデオコンテンツに同期した高品質なオーディオを合成する大規模マルチモーダルビデオ・ツー・オーディオ生成モデルを提案する。
実験の結果,Kling-Foleyはフローマッチングを訓練し,新たな音響視覚SOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-06-24T16:39:39Z) - VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models [43.1613638989795]
テキストと顔の手がかりから高品質な音声を合成する,ビデオダビングの自動化手法であるVoiceCraft-Dubを提案する。
この課題は、映画製作、マルチメディア制作、音声障害者支援に広く応用されている。
論文 参考訳(メタデータ) (2025-04-03T08:24:47Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。