論文の概要: JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis
- arxiv url: http://arxiv.org/abs/2406.06111v1
- Date: Mon, 10 Jun 2024 08:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:37:02.485575
- Title: JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis
- Title(参考訳): JenGAN:GAN音声合成におけるスタックシフトフィルタ
- Authors: Hyunjae Cho, Junhyeok Lee, Wonbin Jung,
- Abstract要約: 非自己回帰的なGANベースのニューラルボコーダは、生成した結果において、音節アーティファクトのような可聴アーチファクトに悩まされることが多い。
我々は、シフト-等価性を保証するためにシフトシフトローパスフィルタを積み重ねる新しいトレーニング戦略であるJenGANを提案する。
実験評価において,JenGANはボコーダモデルの性能を一貫して向上させ,評価指標の多数で有意に優れたスコアを得た。
- 参考スコア(独自算出の注目度): 7.786188453649591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-autoregressive GAN-based neural vocoders are widely used due to their fast inference speed and high perceptual quality. However, they often suffer from audible artifacts such as tonal artifacts in their generated results. Therefore, we propose JenGAN, a new training strategy that involves stacking shifted low-pass filters to ensure the shift-equivariant property. This method helps prevent aliasing and reduce artifacts while preserving the model structure used during inference. In our experimental evaluation, JenGAN consistently enhances the performance of vocoder models, yielding significantly superior scores across the majority of evaluation metrics.
- Abstract(参考訳): 非自己回帰的なGANベースのニューラルボコーダは、高速な推論速度と高い知覚品質のために広く使用されている。
しかし、彼らは生成した結果の中で音素人工物のような可聴人工物に悩まされることが多い。
そこで我々は,シフト-等価性を保証するため,シフトシフトローパスフィルタを積み重ねる新たなトレーニング戦略であるJenGANを提案する。
この方法は、推論時に使用されるモデル構造を保持しながら、アーティファクトのエイリアス化と削減を支援する。
実験評価において,JenGANはボコーダモデルの性能を一貫して向上させ,評価指標の多数で有意に優れたスコアを得た。
関連論文リスト
- Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - LD-GAN: Low-Dimensional Generative Adversarial Network for Spectral
Image Generation with Variance Regularization [72.4394510913927]
ディープラーニング法はスペクトル画像(SI)計算タスクの最先端技術である。
GANは、データ分散から学習およびサンプリングすることで、多様な拡張を可能にする。
この種のデータの高次元性は、GANトレーニングの収束を妨げるため、GANベースのSI生成は困難である。
本稿では, オートエンコーダ訓練における低次元表現分散を制御し, GANで生成されたサンプルの多様性を高めるための統計正則化を提案する。
論文 参考訳(メタデータ) (2023-04-29T00:25:02Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly
Detection [89.49600182243306]
我々は拡散モデルを用いて再構成過程をノイズ・ツー・ノームパラダイムに再構成する。
本稿では,拡散モデルにおける従来の反復的復調よりもはるかに高速な高速な一段階復調パラダイムを提案する。
セグメント化サブネットワークは、入力画像とその異常のない復元を用いて画素レベルの異常スコアを予測する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z) - Orthogonal Features Based EEG Signals Denoising Using Fractional and
Compressed One-Dimensional CNN AutoEncoder [3.8580784887142774]
本稿では脳波(EEG)信号の分数的1次元畳み込みニューラルネットワーク(CNN)オートエンコーダを提案する。
脳波信号は、主に筋肉アーチファクト(MA)によって、記録過程中にしばしばノイズによって汚染される。
論文 参考訳(メタデータ) (2021-04-16T13:58:05Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Low-Complexity Models for Acoustic Scene Classification Based on
Receptive Field Regularization and Frequency Damping [7.0349768355860895]
ニューラルネットワークにおけるパラメータ数を削減するために,よく知られた手法をいくつか検討し,比較する。
我々は、受容場に特定の制約を適用することで、高い性能の低複雑性モデルを実現することができることを示す。
本稿では,モデルのRFを規則化するためのフィルタ減衰手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T16:34:11Z) - Top-k Training of GANs: Improving GAN Performance by Throwing Away Bad
Samples [67.11669996924671]
GAN(Generative Adversarial Network)トレーニングアルゴリズムに,簡単な修正(一行のコード)を導入する。
ジェネレータパラメータを更新するとき、批判者が最も現実的に評価するバッチの要素から勾配のコントリビューションをゼロにします。
このトップk更新の手順が一般的に適用可能な改善であることを示す。
論文 参考訳(メタデータ) (2020-02-14T19:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。