論文の概要: Improve GAN-based Neural Vocoder using Pointwise Relativistic
LeastSquare GAN
- arxiv url: http://arxiv.org/abs/2103.14245v1
- Date: Fri, 26 Mar 2021 03:35:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:56:39.849612
- Title: Improve GAN-based Neural Vocoder using Pointwise Relativistic
LeastSquare GAN
- Title(参考訳): ポイントワイズ相対論的LastSquare GANを用いたGANベースニューラルヴォコーダの改良
- Authors: Congyi Wang, Yu Chen, Bin Wang, Yi Shi
- Abstract要約: 位相相対論的LSGAN (Pointwise Relativistic LSGAN) という波形合成の文脈下で, LSGANフレームワークの新しい変種を紹介する。
PRLSGANは汎用フレームワークであり、GANベースのニューラルボコーダと組み合わせて生成品質を向上させることができる。
実験ではParallel WaveGANとMelGANに基づく一貫した性能向上を示し、提案したPRLSGANニューラルボコーダの有効性と強力な一般化能力を示した。
- 参考スコア(独自算出の注目度): 9.595035978417322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GAN-based neural vocoders, such as Parallel WaveGAN and MelGAN have
attracted great interest due to their lightweight and parallel structures,
enabling them to generate high fidelity waveform in a real-time manner. In this
paper, inspired by Relativistic GAN\cite{jolicoeur2018relativistic}, we
introduce a novel variant of the LSGAN framework under the context of waveform
synthesis, named Pointwise Relativistic LSGAN (PRLSGAN). In this approach, we
take the truism score distribution into consideration and combine the original
MSE loss with the proposed pointwise relative discrepancy loss to increase the
difficulty of the generator to fool the discriminator, leading to improved
generation quality. Moreover, PRLSGAN is a general-purposed framework that can
be combined with any GAN-based neural vocoder to enhance its generation
quality. Experiments have shown a consistent performance boost based on
Parallel WaveGAN and MelGAN, demonstrating the effectiveness and strong
generalization ability of our proposed PRLSGAN neural vocoders.
- Abstract(参考訳): 近年,Parallel WaveGANやMelGANのようなGANベースのニューラルボコーダは,その軽量かつ並列な構造から大きな関心を集め,高忠実度波形をリアルタイムに生成できるようになっている。
本稿では、相対論的 GAN\cite{jolicoeur2018relativistic} に着想を得て、波形合成の文脈下でLSGANフレームワークの新たな変種であるPointwise Relativistic LSGAN(PRLSGAN)を紹介する。
提案手法では, トラヒズムスコア分布を考慮し, 元のMSE損失と提案した相対誤差損失とを組み合わせることにより, 判別器を騙すのが難しかったため, 生成品質が向上した。
さらに、PRLSGANは、GANベースのニューラルボコーダと組み合わせて生成品質を向上させる汎用フレームワークである。
実験ではParallel WaveGANとMelGANに基づく一貫した性能向上を示し、提案したPRLSGANニューラルボコーダの有効性と強力な一般化能力を示した。
関連論文リスト
- Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Radio Generation Using Generative Adversarial Networks with An Unrolled
Design [18.049453261384013]
無線生成のための新しいGANフレームワーク「Radio GAN」を開発した。
1つ目は、電波信号のサンプリング分布をモデル化することを目的としたサンプリングポイントに基づく学習である。
2つ目は、未学習のジェネレータ設計であり、予測された純粋な信号分布を前者として組み合わせることで、学習の難易度を大幅に低減することができる。
論文 参考訳(メタデータ) (2023-06-24T07:47:22Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - Hierarchical Spherical CNNs with Lifting-based Adaptive Wavelets for
Pooling and Unpooling [101.72318949104627]
本稿では, 階層型畳み込みニューラルネットワーク(HS-CNN)の新たな枠組みを提案し, プールやアンプールのための適応球面ウェーブレットを学習する。
LiftHS-CNNは、画像レベルのタスクとピクセルレベルのタスクの両方において、より効率的な階層的特徴学習を実現する。
論文 参考訳(メタデータ) (2022-05-31T07:23:42Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation
Generation [32.839539624717546]
本稿では,高調波・高調波源励振機構を備えた統一音源フィルタネットワークを提案する。
修正されたuSFGANは、音声制御性を維持しながら基本uSFGANの音質を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-12T12:41:15Z) - Unified Source-Filter GAN: Unified Source-filter Network Based On
Factorization of Quasi-Periodic Parallel WaveGAN [36.12470085926042]
本稿では,単一のニューラルネットワークを用いたデータ駆動型ソースフィルタモデリング手法を提案する。
疑似周期並列波GANを分解して,uSFGAN (Unified Source-filter Generative Adversarial Network) と呼ばれるネットワークを開発した。
実験では、uSFGANがQPPWGやNSFなどの従来のニューラルボコーダを音声品質とピッチ制御性の両方で上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-10T02:38:26Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Unpaired Image Enhancement with Quality-Attention Generative Adversarial
Network [92.01145655155374]
品質の注意を払わないデータに基づいて訓練された生成敵対ネットワーク(QAGAN)を提案する。
提案されたQAGANの重要な新規性は、ジェネレータの注入されたQAMにある。
提案手法は客観的評価と主観評価の両方において良好な性能を実現する。
論文 参考訳(メタデータ) (2020-12-30T05:57:20Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。