論文の概要: VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models
- arxiv url: http://arxiv.org/abs/2504.02386v1
- Date: Thu, 03 Apr 2025 08:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:17.244838
- Title: VoiceCraft-Dub: Automated Video Dubbing with Neural Codec Language Models
- Title(参考訳): VoiceCraft-Dub:ニューラルコーデック言語モデルによるビデオダビング自動化
- Authors: Kim Sung-Bin, Jeongsoo Choi, Puyuan Peng, Joon Son Chung, Tae-Hyun Oh, David Harwath,
- Abstract要約: テキストと顔の手がかりから高品質な音声を合成する,ビデオダビングの自動化手法であるVoiceCraft-Dubを提案する。
この課題は、映画製作、マルチメディア制作、音声障害者支援に広く応用されている。
- 参考スコア(独自算出の注目度): 43.1613638989795
- License:
- Abstract: We present VoiceCraft-Dub, a novel approach for automated video dubbing that synthesizes high-quality speech from text and facial cues. This task has broad applications in filmmaking, multimedia creation, and assisting voice-impaired individuals. Building on the success of Neural Codec Language Models (NCLMs) for speech synthesis, our method extends their capabilities by incorporating video features, ensuring that synthesized speech is time-synchronized and expressively aligned with facial movements while preserving natural prosody. To inject visual cues, we design adapters to align facial features with the NCLM token space and introduce audio-visual fusion layers to merge audio-visual information within the NCLM framework. Additionally, we curate CelebV-Dub, a new dataset of expressive, real-world videos specifically designed for automated video dubbing. Extensive experiments show that our model achieves high-quality, intelligible, and natural speech synthesis with accurate lip synchronization, outperforming existing methods in human perception and performing favorably in objective evaluations. We also adapt VoiceCraft-Dub for the video-to-speech task, demonstrating its versatility for various applications.
- Abstract(参考訳): テキストと顔の手がかりから高品質な音声を合成する,ビデオダビングの自動化手法であるVoiceCraft-Dubを提案する。
この課題は、映画製作、マルチメディア制作、音声障害者支援に広く応用されている。
音声合成におけるニューラルコーデック言語モデル (NCLM) の成功に基づき,ビデオ特徴を取り入れ,合成音声が自然な韻律を保ちながら顔の動きに時間同期して表現的に整合していることを保証する。
視覚的手がかりを注入するために,顔の特徴をNCLMトークン空間と整合させるアダプタを設計し,NCLMフレームワーク内に音声・視覚情報を統合するために,音声・視覚融合層を導入する。
さらに、自動ビデオダビング用に特別に設計された、表現力のある実世界のビデオのデータセットであるCelebV-Dubをキュレートする。
実験の結果, 高精度な唇同期による高品質, 知能, 自然な音声合成が達成され, 人間の知覚における既存の手法よりも優れ, 客観的評価において良好な結果が得られた。
また、VoiceCraft-Dubをビデオ音声タスクに適用し、様々なアプリケーションにその汎用性を示す。
関連論文リスト
- MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。