論文の概要: GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from
Diffusion Models
- arxiv url: http://arxiv.org/abs/2210.05271v1
- Date: Tue, 11 Oct 2022 09:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:33:18.707969
- Title: GAN You Hear Me? Reclaiming Unconditional Speech Synthesis from
Diffusion Models
- Title(参考訳): GAN You Hear Me?
拡散モデルによる無条件音声合成の再生
- Authors: Matthew Baas and Herman Kamper
- Abstract要約: AudioStyleGAN (ASGAN) は、無条件音声合成のための新しい生成的敵ネットワーク(GAN)である。
ASGANは、Google Speech Commandsデータセット上で無条件音声合成の最先端結果を達成する。
- 参考スコア(独自算出の注目度): 23.822788597966646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose AudioStyleGAN (ASGAN), a new generative adversarial network (GAN)
for unconditional speech synthesis. As in the StyleGAN family of image
synthesis models, ASGAN maps sampled noise to a disentangled latent vector
which is then mapped to a sequence of audio features so that signal aliasing is
suppressed at every layer. To successfully train ASGAN, we introduce a number
of new techniques, including a modification to adaptive discriminator
augmentation to probabilistically skip discriminator updates. ASGAN achieves
state-of-the-art results in unconditional speech synthesis on the Google Speech
Commands dataset. It is also substantially faster than the top-performing
diffusion models. Through a design that encourages disentanglement, ASGAN is
able to perform voice conversion and speech editing without being explicitly
trained to do so. ASGAN demonstrates that GANs are still highly competitive
with diffusion models. Code, models, samples:
https://github.com/RF5/simple-asgan/.
- Abstract(参考訳): 非条件音声合成のためのGAN(generative adversarial network)であるAudioStyleGAN(ASGAN)を提案する。
画像合成モデルのStyleGAN系と同様に、ASGANはサンプルノイズをアンタングル化された潜在ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
AsGANのトレーニングを成功させるためには,適応型識別器の強化や,確率的に識別器更新をスキップするなど,いくつかの新しい手法を導入する。
asganは、google speech commandsデータセットで無条件の音声合成を実現する。
また、最上位の拡散モデルよりもかなり高速である。
アンタングル化を促進する設計を通じて、ASGANは明示的に訓練されることなく音声変換と音声編集を行うことができる。
ASGANは、GANが拡散モデルと高い競争力を持つことを示した。
コード、モデル、サンプル:https://github.com/RF5/simple-asgan/。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-07-04T12:06:07Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - TransFusion: Transcribing Speech with Multinomial Diffusion [20.165433724198937]
本研究では,事前学習した音声特徴に基づく拡散モデルを用いて音声認識を行う手法を提案する。
我々は,LibriSpeech音声認識ベンチマークにおいて,既存の高性能コントラストモデルに匹敵する性能を示す。
また,多項拡散モデルのサンプリングと復号化を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-14T10:01:43Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。