論文の概要: Learning to Dub Movies via Hierarchical Prosody Models
- arxiv url: http://arxiv.org/abs/2212.04054v1
- Date: Thu, 8 Dec 2022 03:29:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:20:07.208295
- Title: Learning to Dub Movies via Hierarchical Prosody Models
- Title(参考訳): 階層的韻律モデルによる映画ダビングの学習
- Authors: Gaoxiang Cong, Liang Li, Yuankai Qi, Zhengjun Zha, Qi Wu, Wenyu Wang,
Bin Jiang, Ming-Hsuan Yang, Qingming Huang
- Abstract要約: テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 167.6465354313349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a piece of text, a video clip and a reference audio, the movie dubbing
(also known as visual voice clone V2C) task aims to generate speeches that
match the speaker's emotion presented in the video using the desired speaker
voice as reference. V2C is more challenging than conventional text-to-speech
tasks as it additionally requires the generated speech to exactly match the
varying emotions and speaking speed presented in the video. Unlike previous
works, we propose a novel movie dubbing architecture to tackle these problems
via hierarchical prosody modelling, which bridges the visual information to
corresponding speech prosody from three aspects: lip, face, and scene.
Specifically, we align lip movement to the speech duration, and convey facial
expression to speech energy and pitch via attention mechanism based on valence
and arousal representations inspired by recent psychology findings. Moreover,
we design an emotion booster to capture the atmosphere from global video
scenes. All these embeddings together are used to generate mel-spectrogram and
then convert to speech waves via existing vocoder. Extensive experimental
results on the Chem and V2C benchmark datasets demonstrate the favorable
performance of the proposed method. The source code and trained models will be
released to the public.
- Abstract(参考訳): テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情と一致する音声を生成することを目的としている。
V2Cは、ビデオに表示されるさまざまな感情と発話速度を正確に一致させるために生成された音声を必要とするため、従来の音声合成タスクよりも難しい。
従来の作品とは違って,視覚情報を唇,顔,シーンの3面から視覚情報にブリッジする階層的韻律モデリングにより,これらの問題に対処する新しい映画ダビングアーキテクチャを提案する。
具体的には,唇運動を発話継続時間に合わせて調整し,近年の心理学的知見に触発されたヴァレンスと覚醒表現に基づく注意機構により,表情を発話エネルギーとピッチに伝達する。
さらに,グローバルな映像シーンから雰囲気を捉えるために,感情ブースターをデザインする。
これらの埋め込みはすべてメルスペクトログラムを生成し、既存のvocoderを介して音声波に変換するために使われる。
ChemおよびV2Cベンチマークデータセットの大規模な実験結果から,提案手法の有効性が示された。
ソースコードとトレーニングされたモデルは一般公開される予定だ。
関連論文リスト
- StyleDubber: Towards Multi-Scale Style Learning for Movie Dubbing [125.86266166482704]
フレームレベルから音素レベルへのダビング学習を切り替えるStyleDubberを提案する。
本研究は,(1) 音素レベルで動作するマルチモーダルスタイル適応器を用いて,参照音声から発音スタイルを学習し,ビデオで提示される顔の感情によって伝達される中間表現を生成すること,(2) メルスペクトル復号と中間埋め込みからの精製プロセスの両方を案内して全体のスタイル表現を改善する発話レベル学習モジュール,(3) 唇同期を維持するための音素誘導唇整合器,の3つの構成要素を含む。
論文 参考訳(メタデータ) (2024-02-20T01:28:34Z) - Speech2Lip: High-fidelity Speech to Lip Generation by Learning from a
Short Video [91.92782707888618]
本稿では,音声の知覚と音声の知覚を両立させるSpeech2Lip(Speech2Lip)という分解合成フレームワークを提案する。
提案手法は,数分間のビデオで学習し,視覚的品質と音声・視覚的同期の両面において最先端のパフォーマンスを達成可能であることを示す。
論文 参考訳(メタデータ) (2023-09-09T14:52:39Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - VisageSynTalk: Unseen Speaker Video-to-Speech Synthesis via
Speech-Visage Feature Selection [32.65865343643458]
近年の研究では、サイレント・トーキング・フェイス・ビデオから音声を合成する際の印象的な性能が示されている。
本稿では、音声コンテンツと話者識別を、入力ビデオの視覚的特徴から分離する音声視覚選択モジュールを提案する。
提案する枠組みは、未確認被写体の無声音声映像が付与された場合でも、適切な内容を含む音声を合成する利点をもたらす。
論文 参考訳(メタデータ) (2022-06-15T11:29:58Z) - V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文 参考訳(メタデータ) (2021-11-25T03:35:18Z) - Speech2Video: Cross-Modal Distillation for Speech to Video Generation [21.757776580641902]
音声対ビデオ生成技術は、エンターテイメント、カスタマーサービス、人間とコンピュータの相互作用産業に興味深い応用をもたらす可能性がある。
この課題は主に、異なる視覚特性を音声信号から切り離すことである。
そこで本研究では,非競合ビデオ入力から無関係な感情・アイデンティティ情報を抽出する軽量なクロスモーダル蒸留法を提案する。
論文 参考訳(メタデータ) (2021-07-10T10:27:26Z) - Write-a-speaker: Text-based Emotional and Rhythmic Talking-head
Generation [28.157431757281692]
本研究では,高忠実度表情と頭部動作を合成するテキストベーストーキングヘッドビデオ生成フレームワークを提案する。
本フレームワークは,話者に依存しないステージと話者固有のステージから構成される。
本アルゴリズムは,様々な表情や頭部の動きを含む高品質なフォトリアリスティックなトーキングヘッドビデオを実現する。
論文 参考訳(メタデータ) (2021-04-16T09:44:12Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。