論文の概要: Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization
- arxiv url: http://arxiv.org/abs/2005.08526v1
- Date: Mon, 18 May 2020 08:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 00:41:40.856953
- Title: Unconditional Audio Generation with Generative Adversarial Networks and
Cycle Regularization
- Title(参考訳): 生成逆ネットワークと周期正規化による無条件音声生成
- Authors: Jen-Yu Liu, Yu-Hua Chen, Yin-Cheng Yeh, Yi-Hsuan Yang
- Abstract要約: 本稿では,歌声のメル-スペクトログラムの無条件生成のためのGANモデルを提案する。
我々は、時間次元のいくつかの構造を誘導するために、ジェネレータに階層的アーキテクチャーを用いる。
歌声生成だけでなく,歌声生成のための新モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 48.55126268721948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a recent paper, we have presented a generative adversarial network
(GAN)-based model for unconditional generation of the mel-spectrograms of
singing voices. As the generator of the model is designed to take a
variable-length sequence of noise vectors as input, it can generate
mel-spectrograms of variable length. However, our previous listening test shows
that the quality of the generated audio leaves room for improvement. The
present paper extends and expands that previous work in the following aspects.
First, we employ a hierarchical architecture in the generator to induce some
structure in the temporal dimension. Second, we introduce a cycle
regularization mechanism to the generator to avoid mode collapse. Third, we
evaluate the performance of the new model not only for generating singing
voices, but also for generating speech voices. Evaluation result shows that new
model outperforms the prior one both objectively and subjectively. We also
employ the model to unconditionally generate sequences of piano and violin
music and find the result promising. Audio examples, as well as the code for
implementing our model, will be publicly available online upon paper
publication.
- Abstract(参考訳): 本稿では,歌唱音声のメルスペクトログラムの無条件生成のための生成的逆ネットワーク(gan)モデルを提案する。
モデルの生成元は、ノイズベクトルの可変長列を入力として設計されているため、可変長のメルスペクトログラムを生成することができる。
しかし, 過去の聴力試験では, 音質が改善の余地があることが示されている。
本論文は, 先行研究を以下に拡張し, 拡張する。
まず,階層構造を生成器に導入し,時間次元の幾らかの構造を誘導する。
第2に,モード崩壊を回避するためのサイクル正規化機構をジェネレータに導入する。
第3に,歌声生成だけでなく,音声生成にも新たなモデルの有効性を評価する。
評価の結果,新しいモデルは客観的にも主観的にも先行モデルよりも優れていた。
また、このモデルを用いて無条件にピアノとヴァイオリンの音楽のシーケンスを生成し、有望な結果を見出す。
我々のモデルを実装するためのコードとオーディオサンプルは、論文発表時にオンラインで公開されます。
関連論文リスト
- Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform
Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。
我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。
実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文 参考訳(メタデータ) (2023-10-02T17:42:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Period VITS: Variational Inference with Explicit Pitch Modeling for
End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。
提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。
これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文 参考訳(メタデータ) (2022-10-28T07:52:30Z) - A Generative Model for Raw Audio Using Transformer Architectures [4.594159253008448]
本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。
本稿では,波形を生成するためのディープニューラルネットワークを提案する。
提案手法は,次のステップを予測するための類似データセットにおいて,広範に使用されているウェーブネットアーキテクチャを最大9%向上させる。
論文 参考訳(メタデータ) (2021-06-30T13:05:31Z) - CRASH: Raw Audio Score-based Generative Modeling for Controllable
High-resolution Drum Sound Synthesis [0.0]
非条件生音声合成のための新しいスコアベース生成モデルを提案する。
提案手法は,よりフレキシブルな生成機能を提供しながら,生音声におけるGANベースの手法とのギャップを埋める。
論文 参考訳(メタデータ) (2021-06-14T13:48:03Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。