論文の概要: Disentanglement in a GAN for Unconditional Speech Synthesis
- arxiv url: http://arxiv.org/abs/2307.01673v1
- Date: Tue, 4 Jul 2023 12:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 17:21:21.153434
- Title: Disentanglement in a GAN for Unconditional Speech Synthesis
- Title(参考訳): 非条件音声合成のためのganの絡み合い
- Authors: Matthew Baas and Herman Kamper
- Abstract要約: 本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
- 参考スコア(独自算出の注目度): 23.822788597966646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can we develop a model that can synthesize realistic speech directly from a
latent space, without explicit conditioning? Despite several efforts over the
last decade, previous adversarial and diffusion-based approaches still struggle
to achieve this, even on small-vocabulary datasets. To address this, we propose
AudioStyleGAN (ASGAN) -- a generative adversarial network for unconditional
speech synthesis tailored to learn a disentangled latent space. Building upon
the StyleGAN family of image synthesis models, ASGAN maps sampled noise to a
disentangled latent vector which is then mapped to a sequence of audio features
so that signal aliasing is suppressed at every layer. To successfully train
ASGAN, we introduce a number of new techniques, including a modification to
adaptive discriminator augmentation which probabilistically skips discriminator
updates. We apply it on the small-vocabulary Google Speech Commands digits
dataset, where it achieves state-of-the-art results in unconditional speech
synthesis. It is also substantially faster than existing top-performing
diffusion models. We confirm that ASGAN's latent space is disentangled: we
demonstrate how simple linear operations in the space can be used to perform
several tasks unseen during training. Specifically, we perform evaluations in
voice conversion, speech enhancement, speaker verification, and keyword
classification. Our work indicates that GANs are still highly competitive in
the unconditional speech synthesis landscape, and that disentangled latent
spaces can be used to aid generalization to unseen tasks. Code, models,
samples: https://github.com/RF5/simple-asgan/
- Abstract(参考訳): 明示的な条件付けなしに、潜在空間から直接リアルな音声を合成できるモデルを開発することができるか?
過去10年間、いくつかの努力にもかかわらず、過去の敵対的および拡散ベースのアプローチは、小さなボカブラリデータセットでも、これを達成するのに苦労している。
そこで本稿では,無条件音声合成のための生成対向ネットワークであるAudioStyleGAN(ASGAN)を提案する。
画像合成モデルのstyleganファミリに基づいて、asganはサンプリングされたノイズを不連続な潜在ベクトルにマッピングし、オーディオ特徴のシーケンスにマッピングすることで、各層で信号エイリアシングが抑制される。
AsGANのトレーニングを成功させるためには、適応型判別器の増分修正など、いくつかの新しい手法を導入する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
また、既存の最高性能拡散モデルよりもかなり高速である。
我々は,asganの潜在空間が不連続であることを確認する。空間内の単純な線形演算が,訓練中に見当たらないいくつかのタスクを実行するためにどのように利用できるかを示す。
具体的には,音声変換,音声強調,話者照合,キーワード分類における評価を行う。
我々の研究は、ganは依然として無条件音声合成環境において非常に競争力があり、非知覚タスクの一般化を支援するために不連続な潜在空間が利用できることを示している。
コード、モデル、サンプル:https://github.com/RF5/simple-asgan/
関連論文リスト
- VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - On the Semantic Latent Space of Diffusion-Based Text-to-Speech Models [15.068637971987224]
DDMデノイザの遅延ボトルネックアクティベーションからなる冷凍TSモデルの潜時空間について検討する。
この空間には豊富な意味情報が含まれており、教師なしと教師なしの両方で、その内部の意味的方向を見つけるための新しい方法をいくつか紹介する。
これにより、さらなるトレーニング、アーキテクチャの変更、データ要求なしに、オフザシェルフオーディオ編集が可能になることを実証する。
論文 参考訳(メタデータ) (2024-02-19T16:22:21Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from
Diffusion Models [23.822788597966646]
AudioStyleGAN (ASGAN) は、無条件音声合成のための新しい生成的敵ネットワーク(GAN)である。
ASGANは、Google Speech Commandsデータセット上で無条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2022-10-11T09:12:29Z) - GANtron: Emotional Speech Synthesis with Generative Adversarial Networks [0.0]
提案するテキスト音声合成モデルでは,推定音声を所望の感情で調整することができる。
我々は,GAN(Generative Adversarial Networks)とアテンション機構を用いたシーケンス・ツー・シーケンス・モデルを用いた。
論文 参考訳(メタデータ) (2021-10-06T10:44:30Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。