論文の概要: StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing
- arxiv url: http://arxiv.org/abs/2402.12636v2
- Date: Wed, 21 Feb 2024 14:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 11:55:36.527181
- Title: StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing
- Title(参考訳): StyleDubber: 映画ダビングのためのマルチスケールスタイル学習を目指して
- Authors: Gaoxiang Cong, Yuankai Qi, Liang Li, Amin Beheshti, Zhedong Zhang,
Anton van den Hengel, Ming-Hsuan Yang, Chenggang Yan, Qingming Huang
- Abstract要約: フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
- 参考スコア(独自算出の注目度): 130.59583816162692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a script, the challenge in Movie Dubbing (Visual Voice Cloning, V2C) is
to generate speech that aligns well with the video in both time and emotion,
based on the tone of a reference audio track. Existing state-of-the-art V2C
models break the phonemes in the script according to the divisions between
video frames, which solves the temporal alignment problem but leads to
incomplete phoneme pronunciation and poor identity stability. To address this
problem, we propose StyleDubber, which switches dubbing learning from the frame
level to phoneme level. It contains three main components: (1) A multimodal
style adaptor operating at the phoneme level to learn pronunciation style from
the reference audio, and generate intermediate representations informed by the
facial emotion presented in the video; (2) An utterance-level style learning
module, which guides both the mel-spectrogram decoding and the refining
processes from the intermediate embeddings to improve the overall style
expression; And (3) a phoneme-guided lip aligner to maintain lip sync.
Extensive experiments on two of the primary benchmarks, V2C and Grid,
demonstrate the favorable performance of the proposed method as compared to the
current state-of-the-art. The source code and trained models will be released
to the public.
- Abstract(参考訳): 脚本が与えられた場合、映画ダビング(Visual Voice Cloning, V2C)の課題は、基準音声トラックのトーンに基づいて、時間と感情の両方でビデオとうまく一致した音声を生成することである。
既存の最先端V2Cモデルは、時間的アライメント問題を解決するが、不完全音素発音と不完全性安定性をもたらすビデオフレーム間の分割に従って、スクリプト内の音素を分解する。
そこで本稿では,この問題を解決するために,学習をフレームレベルから音素レベルに切り替えるstyledubberを提案する。
It contains three main components: (1) A multimodal style adaptor operating at the phoneme level to learn pronunciation style from the reference audio, and generate intermediate representations informed by the facial emotion presented in the video; (2) An utterance-level style learning module, which guides both the mel-spectrogram decoding and the refining processes from the intermediate embeddings to improve the overall style expression; And (3) a phoneme-guided lip aligner to maintain lip sync.
2つの主要なベンチマークであるV2CとGridの大規模な実験は、提案手法の現況と比較して好適な性能を示した。
ソースコードとトレーニングされたモデルは一般公開される予定だ。
関連論文リスト
- Audio-Driven Dubbing for User Generated Contents via Style-Aware
Semi-Parametric Synthesis [123.11530365315677]
既存の自動ダビングメソッドは通常、PGC(Professionally Generated Content)の生産用に設計されている。
本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。
論文 参考訳(メタデータ) (2023-08-31T15:41:40Z) - InstructVid2Vid: Controllable Video Editing with Natural Language
Instructions [106.6740407795944]
人間の言語命令で動画を編集するエンドツーエンド拡散方式,すなわち $textbfInstructVid2Vid$ を提案する。
提案手法では,自然言語命令に基づく入力ビデオの編集を,例ごとの微調整や逆変換を行なわずに行うことができる。
実験によると、InstructVid2Vidは高品質で時間的に整合したビデオを生成し、編集、背景の変更、スタイル転送など様々な編集を行うことができる。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - VideoReTalking: Audio-based Lip Synchronization for Talking Head Video
Editing In the Wild [37.93856291026653]
VideoReTalkingは、現実世界のトーキングヘッドビデオの顔を入力音声で編集する新しいシステムである。
感情が違う場合でも、高品質でリップシンクの出力ビデオを生成する。
論文 参考訳(メタデータ) (2022-11-27T08:14:23Z) - V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文 参考訳(メタデータ) (2021-11-25T03:35:18Z) - Neural Dubber: Dubbing for Silent Videos According to Scripts [22.814626504851752]
本稿では,新しい自動ビデオダビング(AVD)タスクを解決するニューラルネットワークモデルであるNeural Dubberを提案する。
Neural Dubberは、ビデオ中の唇の動きを利用して生成された音声の韻律を制御するマルチモーダルテキスト音声モデルである。
実験により、ニューラルダバーはビデオによって合成音声の韻律を制御でき、ビデオと時間的に同期した高忠実度音声を生成する。
論文 参考訳(メタデータ) (2021-10-15T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。