論文の概要: Parallel waveform synthesis based on generative adversarial networks
with voicing-aware conditional discriminators
- arxiv url: http://arxiv.org/abs/2010.14151v2
- Date: Mon, 26 Apr 2021 08:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 13:16:17.586178
- Title: Parallel waveform synthesis based on generative adversarial networks
with voicing-aware conditional discriminators
- Title(参考訳): voicing-aware conditional discriminatorを用いた生成逆ネットワークに基づく並列波形合成
- Authors: Ryuichi Yamamoto, Eunwoo Song, Min-Jae Hwang, Jae-Min Kim
- Abstract要約: 本稿では、パラレルウェーブGANに基づく波形合成システムのための音声対応条件判別器を提案する。
我々は、識別器の性能を大幅に向上させるプロジェクションベースの条件付け手法を採用する。
提案手法は従来のParallel WaveGANおよびWaveNetシステムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 25.794915063815665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes voicing-aware conditional discriminators for Parallel
WaveGAN-based waveform synthesis systems. In this framework, we adopt a
projection-based conditioning method that can significantly improve the
discriminator's performance. Furthermore, the conventional discriminator is
separated into two waveform discriminators for modeling voiced and unvoiced
speech. As each discriminator learns the distinctive characteristics of the
harmonic and noise components, respectively, the adversarial training process
becomes more efficient, allowing the generator to produce more realistic speech
waveforms. Subjective test results demonstrate the superiority of the proposed
method over the conventional Parallel WaveGAN and WaveNet systems. In
particular, our speaker-independently trained model within a FastSpeech 2 based
text-to-speech framework achieves the mean opinion scores of 4.20, 4.18, 4.21,
and 4.31 for four Japanese speakers, respectively.
- Abstract(参考訳): 本稿では、パラレルウェーブGANに基づく波形合成システムのための音声対応条件判別器を提案する。
この枠組みでは, 判別器の性能を著しく向上できる投射に基づく条件付け手法を採用する。
さらに、従来の判別器を2つの波形判別器に分離し、有声・無声音声をモデル化する。
各判別器は、それぞれ調和成分と雑音成分の特徴的な特徴を学習するので、対向訓練プロセスはより効率的になり、生成器はより現実的な音声波形を生成できる。
主観試験の結果,従来の並列ウェーブガンおよびウェーブネットシステムよりも,提案手法が優れていることが示された。
特に、fastspeech 2ベースのtext-to-speechフレームワーク内の話者独立学習モデルでは、日本語話者4人に対して平均評価スコアが4.20,4.18,4.21,4.31である。
関連論文リスト
- DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Wave-U-Net Discriminator: Fast and Lightweight Discriminator for
Generative Adversarial Network-Based Speech Synthesis [38.27153023145183]
音声合成において、生成逆数ネットワーク(GAN)を用いて、min-maxゲームにおいてジェネレータ(音声合成器)と識別器を訓練する。
識別器のアンサンブルは、近年のニューラルボコーダ (HiFi-GAN) やエンドツーエンドのテキスト音声 (TTS) システムでよく使われている。
本研究では,Wave-U-Netアーキテクチャを用いた単一だが表現力のある識別器であるWave-U-Net判別器を提案する。
論文 参考訳(メタデータ) (2023-03-24T10:46:40Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Facetron: Multi-speaker Face-to-Speech Model based on Cross-modal Latent
Representations [22.14238843571225]
個人の顔の映像を条件付けして、話者固有の音声波形を合成する効果的な方法を提案する。
唇読解モデルを用いて唇の動きから言語的特徴を抽出し,顔画像から話者特性を予測する。
本稿では,従来の手法よりも客観評価と主観評価の両面において,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-26T07:36:02Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Parametric Representation for Singing Voice Synthesis: a Comparative
Evaluation [10.37199090634032]
まず,統計的パラメトリック合成に適した4つの既存手法に対して比較主観評価を行う。
ハイピッチ音声で発生するアーティファクトについて論じ,それを克服するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-07T13:06:30Z) - End-to-End Adversarial Text-to-Speech [33.01223309795122]
正規化されたテキストや音素から音声をエンドツーエンドで合成することを学ぶ。
提案するジェネレータはフィードフォワードであり,トレーニングと推論の両方に効率的である。
敵対的フィードバックと予測損失を組み合わせた高忠実度オーディオを学習する。
論文 参考訳(メタデータ) (2020-06-05T17:41:05Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。