論文の概要: PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate
One-to-Many Mapping
- arxiv url: http://arxiv.org/abs/2211.04610v1
- Date: Tue, 8 Nov 2022 23:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:40:13.482037
- Title: PhaseAug: A Differentiable Augmentation for Speech Synthesis to Simulate
One-to-Many Mapping
- Title(参考訳): PhaseAug: 1対1マッピングをシミュレートする音声合成のための微分拡張
- Authors: Junhyeok Lee, Seungu Han, Hyunjae Cho, Wonbin Jung
- Abstract要約: 本稿では、各周波数ビンの位相を回転させて1対1のマッピングをシミュレートする、音声合成のための最初の微分可能拡張であるPhaseAugを提案する。
- 参考スコア(独自算出の注目度): 0.3277163122167433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous generative adversarial network (GAN)-based neural vocoders are
trained to reconstruct the exact ground truth waveform from the paired
mel-spectrogram and do not consider the one-to-many relationship of speech
synthesis. This conventional training causes overfitting for both the
discriminators and the generator, leading to the periodicity artifacts in the
generated audio signal. In this work, we present PhaseAug, the first
differentiable augmentation for speech synthesis that rotates the phase of each
frequency bin to simulate one-to-many mapping. With our proposed method, we
outperform baselines without any architecture modification. Code and audio
samples will be available at https://github.com/mindslab-ai/phaseaug.
- Abstract(参考訳): 従来のganベースのニューラルボコーダは、対のメルスペクトログラムから正確な基底真理波形を再構成するために訓練され、音声合成の1対1の関係を考慮しない。
この従来の訓練は、識別器と発電機の両方に過剰適合をもたらし、生成された音声信号の周期性アーティファクトに繋がる。
本稿では,各周波数ビンの位相を回転させて一対多マッピングをシミュレートする,音声合成における最初の微分可能な拡張であるphaseaugを提案する。
提案手法では,アーキテクチャの変更を伴わずに,ベースラインを上回ります。
コードとオーディオのサンプルはhttps://github.com/mindslab-ai/phaseaugで入手できる。
関連論文リスト
- A Closer Look at Neural Codec Resynthesis: Bridging the Gap between Codec and Waveform Generation [65.05719674893999]
トークン予測と回帰に基づく2つの戦略について検討し,Schr"odinger Bridgeに基づく新しい手法を提案する。
異なるデザイン選択が機械と人間の知覚にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-10-29T18:29:39Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Generative Model for Raw Audio Using Transformer Architectures [4.594159253008448]
本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。
本稿では,波形を生成するためのディープニューラルネットワークを提案する。
提案手法は,次のステップを予測するための類似データセットにおいて,広範に使用されているウェーブネットアーキテクチャを最大9%向上させる。
論文 参考訳(メタデータ) (2021-06-30T13:05:31Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Wave-Tacotron: Spectrogram-free end-to-end text-to-speech synthesis [25.234945748885348]
本稿では,テキスト入力から直接音声波形を生成するシーケンス・ツー・シーケンスニューラルネットワークについて述べる。
アーキテクチャは、自己回帰デコーダループに正規化フローを組み込むことで、タコトロンモデルを拡張する。
実験により,提案モデルが最先端のニューラルTSシステムに近づく品質の音声を生成することが示された。
論文 参考訳(メタデータ) (2020-11-06T19:30:07Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。