論文の概要: VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion
- arxiv url: http://arxiv.org/abs/2202.09081v1
- Date: Fri, 18 Feb 2022 08:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 14:32:51.960392
- Title: VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion
- Title(参考訳): VCVTS:音声変換からのクロスモーダル知識伝達による多話者音声合成
- Authors: Disong Wang, Shan Yang, Dan Su, Xunying Liu, Dong Yu, Helen Meng
- Abstract要約: 本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
- 参考スコア(独自算出の注目度): 77.50171525265056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though significant progress has been made for speaker-dependent
Video-to-Speech (VTS) synthesis, little attention is devoted to multi-speaker
VTS that can map silent video to speech, while allowing flexible control of
speaker identity, all in a single system. This paper proposes a novel
multi-speaker VTS system based on cross-modal knowledge transfer from voice
conversion (VC), where vector quantization with contrastive predictive coding
(VQCPC) is used for the content encoder of VC to derive discrete phoneme-like
acoustic units, which are transferred to a Lip-to-Index (Lip2Ind) network to
infer the index sequence of acoustic units. The Lip2Ind network can then
substitute the content encoder of VC to form a multi-speaker VTS system to
convert silent video to acoustic units for reconstructing accurate spoken
content. The VTS system also inherits the advantages of VC by using a speaker
encoder to produce speaker representations to effectively control the speaker
identity of generated speech. Extensive evaluations verify the effectiveness of
proposed approach, which can be applied in both constrained vocabulary and open
vocabulary conditions, achieving state-of-the-art performance in generating
high-quality speech with high naturalness, intelligibility and speaker
similarity. Our demo page is released here:
https://wendison.github.io/VCVTS-demo/
- Abstract(参考訳): 話者依存型ビデオ音声合成(VTS)では大きな進歩があったが、サイレント映像を音声にマッピングできるマルチ話者VTSにはほとんど注目されていない。
本稿では、音声変換(VC)からのクロスモーダルな知識伝達に基づく新しいマルチスピーカVTSシステムを提案し、VCのコンテントエンコーダにベクトル量子化(VQCPC)を用い、音響単位の指数列を推定するためにLip-to-Index(Lip2Ind)ネットワークに転送される離散音素様音響単位を導出する。
次に、Lip2IndネットワークはVCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
VTSシステムは、話者エンコーダを使用して話者表現を生成し、生成された音声の話者アイデンティティを効果的に制御することで、VCの利点を継承する。
高い自然性,知性,話者類似性を有する高品質な音声を生成する上で,制約付き語彙条件とオープン語彙条件の両方に適用可能な提案手法の有効性を検証する。
デモページは以下のとおり。 https://wendison.github.io/vcvts-demo/
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model [11.62674351793]
複数の拡張を伴ってコンテキスト特徴を適応する新しい音声ベースのTSモデルを提案する。
Qformerの成功に触発されて,マルチモーダルなコンテキスト強化Qformerを提案する。
提案手法は,様々な状況のTSシナリオにおいて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T03:06:45Z) - UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice
Conversion [63.346825713704625]
テキスト音声変換(TTS, Text-to-Speech)と音声変換(VC)は2つの異なるタスクであり, 音質の異なる音質で音声を合成することを目的としている。
本稿では,TSとVCを統合フレームワークに初めて導入するUnifySpeechを提案する。
論文 参考訳(メタデータ) (2023-01-10T06:06:57Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。