論文の概要: Wave-U-Net Discriminator: Fast and Lightweight Discriminator for
Generative Adversarial Network-Based Speech Synthesis
- arxiv url: http://arxiv.org/abs/2303.13909v1
- Date: Fri, 24 Mar 2023 10:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 14:58:08.089564
- Title: Wave-U-Net Discriminator: Fast and Lightweight Discriminator for
Generative Adversarial Network-Based Speech Synthesis
- Title(参考訳): Wave-U-Net Discriminator: 音声合成のための高速かつ軽量な識別器
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki
- Abstract要約: 音声合成において、生成逆数ネットワーク(GAN)を用いて、min-maxゲームにおいてジェネレータ(音声合成器)と識別器を訓練する。
識別器のアンサンブルは、近年のニューラルボコーダ (HiFi-GAN) やエンドツーエンドのテキスト音声 (TTS) システムでよく使われている。
本研究では,Wave-U-Netアーキテクチャを用いた単一だが表現力のある識別器であるWave-U-Net判別器を提案する。
- 参考スコア(独自算出の注目度): 38.27153023145183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speech synthesis, a generative adversarial network (GAN), training a
generator (speech synthesizer) and a discriminator in a min-max game, is widely
used to improve speech quality. An ensemble of discriminators is commonly used
in recent neural vocoders (e.g., HiFi-GAN) and end-to-end text-to-speech (TTS)
systems (e.g., VITS) to scrutinize waveforms from multiple perspectives. Such
discriminators allow synthesized speech to adequately approach real speech;
however, they require an increase in the model size and computation time
according to the increase in the number of discriminators. Alternatively, this
study proposes a Wave-U-Net discriminator, which is a single but expressive
discriminator with Wave-U-Net architecture. This discriminator is unique; it
can assess a waveform in a sample-wise manner with the same resolution as the
input signal, while extracting multilevel features via an encoder and decoder
with skip connections. This architecture provides a generator with sufficiently
rich information for the synthesized speech to be closely matched to the real
speech. During the experiments, the proposed ideas were applied to a
representative neural vocoder (HiFi-GAN) and an end-to-end TTS system (VITS).
The results demonstrate that the proposed models can achieve comparable speech
quality with a 2.31 times faster and 14.5 times more lightweight discriminator
when used in HiFi-GAN and a 1.90 times faster and 9.62 times more lightweight
discriminator when used in VITS. Audio samples are available at
https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/.
- Abstract(参考訳): 音声合成では、ジェネレータ(音声合成器)と識別器をmin-maxゲームで訓練するGAN(Generative Adversarial Network)が音声品質向上に広く利用されている。
識別器のアンサンブルは、近年のニューラルボコーダ(HiFi-GANなど)や、複数の視点から波形を精査するためにTTSシステム(VITSなど)で一般的に用いられている。
このような判別器は、合成された音声が実際の音声に適切に近づくことができるが、識別器の数の増加に応じて、モデルサイズと計算時間を増加させる必要がある。
あるいは、Wave-U-Netアーキテクチャを持つ単一だが表現力のある識別器であるWave-U-Net判別器を提案する。
この判別器は一意で、入力信号と同じ解像度でサンプル的に波形を評価でき、同時にスキップ接続のあるエンコーダとデコーダを介して多レベル特徴を抽出することができる。
このアーキテクチャは、合成された音声が実際の音声と密にマッチするのに十分な情報を持つジェネレータを提供する。
実験中,提案したアイデアを代表型ニューラルボコーダ (HiFi-GAN) とエンドツーエンドTSシステム (VITS) に適用した。
その結果,提案手法は,hifi-ganでは2.31倍高速で14.5倍,vitsでは1.90倍高速で9.62倍軽量な判別器を用いて,同等の音声品質を達成できることがわかった。
オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/waveunetd/で入手できる。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Avocodo: Generative Adversarial Network for Artifact-free Vocoder [5.956832212419584]
本稿では,GANをベースとしたAvocodoと呼ばれるニューラルボコーダを提案する。
Avocodoは、従来のGANベースのニューラルボコーダを音声合成と歌声合成の両方で上回り、人工音声を合成することができる。
論文 参考訳(メタデータ) (2022-06-27T15:54:41Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。