論文の概要: V2C: Visual Voice Cloning
- arxiv url: http://arxiv.org/abs/2111.12890v1
- Date: Thu, 25 Nov 2021 03:35:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 18:20:40.314334
- Title: V2C: Visual Voice Cloning
- Title(参考訳): V2C: ビジュアル音声クローン
- Authors: Qi Chen, Yuanqing Li, Yuankai Qi, Jiaqiu Zhou, Mingkui Tan, Qi Wu
- Abstract要約: 我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
- 参考スコア(独自算出の注目度): 55.55301826567474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Voice Cloning (VC) tasks aim to convert a paragraph text to a speech
with desired voice specified by a reference audio. This has significantly
boosted the development of artificial speech applications. However, there also
exist many scenarios that cannot be well reflected by these VC tasks, such as
movie dubbing, which requires the speech to be with emotions consistent with
the movie plots. To fill this gap, in this work we propose a new task named
Visual Voice Cloning (V2C), which seeks to convert a paragraph of text to a
speech with both desired voice specified by a reference audio and desired
emotion specified by a reference video. To facilitate research in this field,
we construct a dataset, V2C-Animation, and propose a strong baseline based on
existing state-of-the-art (SoTA) VC techniques. Our dataset contains 10,217
animated movie clips covering a large variety of genres (e.g., Comedy, Fantasy)
and emotions (e.g., happy, sad). We further design a set of evaluation metrics,
named MCD-DTW-SL, which help evaluate the similarity between ground-truth
speeches and the synthesised ones. Extensive experimental results show that
even SoTA VC methods cannot generate satisfying speeches for our V2C task. We
hope the proposed new task together with the constructed dataset and evaluation
metric will facilitate the research in the field of voice cloning and the
broader vision-and-language community.
- Abstract(参考訳): 既存のVoice Cloning(VC)タスクは、参照音声によって指定された所望の音声で段落テキストを音声に変換することを目的としている。
これにより、人工音声アプリケーションの開発が大幅に促進された。
しかし、これらのvcのタスクによく反映できないシナリオも数多く存在し、例えば映画ダビングは、映画のプロットと一致した感情を持ってスピーチをする必要がある。
このギャップを埋めるために,本稿では,参照音声によって特定される所望の音声と参照ビデオによって特定される所望の感情の両方を用いて,テキストの段落を音声に変換するVisual Voice Cloning (V2C) というタスクを提案する。
この分野での研究を容易にするために、V2Cアニメーションというデータセットを構築し、既存の最先端VC技術に基づく強力なベースラインを提案する。
私たちのデータセットには、さまざまなジャンル(コメディ、ファンタジーなど)と感情(幸せ、悲しみなど)をカバーする10,217のアニメーション映画クリップが含まれています。
さらに,MCD-DTW-SLという評価指標を設計し,音声と合成音声との類似性を評価する。
実験結果から,SoTAVC手法でさえ,V2Cタスクの満足度の高い音声を生成できないことがわかった。
提案する課題は,構築したデータセットと評価指標と合わせて,音声クローン研究とより広範な視覚言語コミュニティの促進を期待する。
関連論文リスト
- Seeing Your Speech Style: A Novel Zero-Shot Identity-Disentanglement Face-based Voice Conversion [5.483488375189695]
顔に基づく音声変換(FVC)は、顔画像を利用してターゲット話者の音声スタイルを生成する新しいタスクである。
先行研究は,(1)話者の音声識別情報に整合した顔埋め込みの獲得に苦しむこと,(2)コンテンツと話者識別情報を音声入力から切り離すのに不適切であること,の2つの欠点がある。
上記の2つの制限を克服する新しいFVC手法であるID-FaceVCを提案する。
論文 参考訳(メタデータ) (2024-09-01T11:51:18Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Learning to Dub Movies via Hierarchical Prosody Models [167.6465354313349]
テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情にマッチした音声を生成することを目的としている。
本稿では,これらの問題に階層的韻律モデルを用いて対処する新しい映画ダビングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-08T03:29:04Z) - Decoupling Speaker-Independent Emotions for Voice Conversion Via
Source-Filter Networks [14.55242023708204]
本研究では,話者に依存しない感情特徴の適切なフィルタリングを実現するために,ソースフィルタに基づく感情VCモデル(SFEVC)を提案する。
我々のSFEVCモデルはマルチチャネルエンコーダと感情分離エンコーダと1つのデコーダで構成されている。
論文 参考訳(メタデータ) (2021-10-04T03:14:48Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。