論文の概要: DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis
- arxiv url: http://arxiv.org/abs/2505.09091v1
- Date: Wed, 14 May 2025 02:52:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.356335
- Title: DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis
- Title(参考訳): DPN-GAN:高忠実性音声合成のための生成逆数ネットワークにおける周期的活性化の誘導
- Authors: Zeeshan Ahmad, Shudi Bao, Meng Chen,
- Abstract要約: 変形性周期ネットワークに基づくGAN(DPN-GAN)を提案する。
DPN-GANは、カーネルベースの周期的ReLUアクティベーション機能を導入し、オーディオ生成の周期的バイアスを誘導する。
DPN-GAN小パラメータ (38.67Mパラメータ) とDPN-GAN大パラメータ (124Mパラメータ) の2種類のモデルを訓練した。
- 参考スコア(独自算出の注目度): 4.834986020597738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, generative adversarial networks (GANs) have made significant progress in generating audio sequences. However, these models typically rely on bandwidth-limited mel-spectrograms, which constrain the resolution of generated audio sequences, and lead to mode collapse during conditional generation. To address this issue, we propose Deformable Periodic Network based GAN (DPN-GAN), a novel GAN architecture that incorporates a kernel-based periodic ReLU activation function to induce periodic bias in audio generation. This innovative approach enhances the model's ability to capture and reproduce intricate audio patterns. In particular, our proposed model features a DPN module for multi-resolution generation utilizing deformable convolution operations, allowing for adaptive receptive fields that improve the quality and fidelity of the synthetic audio. Additionally, we enhance the discriminator network using deformable convolution to better distinguish between real and generated samples, further refining the audio quality. We trained two versions of the model: DPN-GAN small (38.67M parameters) and DPN-GAN large (124M parameters). For evaluation, we use five different datasets, covering both speech synthesis and music generation tasks, to demonstrate the efficiency of the DPN-GAN. The experimental results demonstrate that DPN-GAN delivers superior performance on both out-of-distribution and noisy data, showcasing its robustness and adaptability. Trained across various datasets, DPN-GAN outperforms state-of-the-art GAN architectures on standard evaluation metrics, and exhibits increased robustness in synthesized audio.
- Abstract(参考訳): 近年、GAN(Generative Adversarial Network)は、音声シーケンスの生成において大きな進歩を遂げている。
しかし、これらのモデルは一般に帯域幅制限のメル-スペクトログラムに依存しており、これは生成されたオーディオシーケンスの解像度を制限し、条件付き生成時にモード崩壊を引き起こす。
この問題を解決するために、カーネルベースの周期的ReLUアクティベーション関数を組み込んだ新しいGANアーキテクチャであるDeformable Periodic Network based GAN (DPN-GAN)を提案する。
この革新的なアプローチは、複雑なオーディオパターンをキャプチャして再生するモデルの能力を高める。
特に,提案モデルでは,変形可能な畳み込み操作を利用したマルチレゾリューション生成のためのDPNモジュールを特徴とする。
さらに、変形可能な畳み込みを用いて識別器ネットワークを強化し、実際のサンプルと生成されたサンプルをよりよく区別し、さらに音質を改良する。
DPN-GAN小パラメータ (38.67Mパラメータ) とDPN-GAN大パラメータ (124Mパラメータ) の2種類のモデルを訓練した。
評価には,DPN-GANの効率性を示すために,音声合成と音楽生成タスクの両方をカバーする5つの異なるデータセットを使用する。
実験の結果,DPN-GANは分布外およびノイズデータの両方で優れた性能を示し,その堅牢性と適応性を示した。
さまざまなデータセットでトレーニングされたDPN-GANは、標準的な評価基準に基づいて最先端のGANアーキテクチャを上回り、合成音声の堅牢性を高めている。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - DDMI: Domain-Agnostic Latent Diffusion Models for Synthesizing High-Quality Implicit Neural Representations [13.357094648241839]
INRのドメインに依存しない潜在拡散モデルは、ニューラルネットワークの重みの代わりに適応的な位置埋め込みを生成する。
離散データと連続信号関数をシームレスに接続する分割連続空間変分自動エンコーダ(D2C-VAE)を開発した。
例えば、2D画像、3D形状、ニューラルラジアンスフィールド、ビデオの4つのモードにわたる実験では、7つのベンチマークデータセットがDDMIの汎用性を実証している。
論文 参考訳(メタデータ) (2024-01-23T06:21:34Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。