論文の概要: Conditioning Trick for Training Stable GANs
- arxiv url: http://arxiv.org/abs/2010.05844v1
- Date: Mon, 12 Oct 2020 16:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 08:19:04.828569
- Title: Conditioning Trick for Training Stable GANs
- Title(参考訳): 安定gan訓練用コンディショニングトリック
- Authors: Mohammad Esmaeilpour, Raymel Alfonso Sallo, Olivier St-Georges,
Patrick Cardinal, Alessandro Lameiras Koerich
- Abstract要約: 本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
- 参考スコア(独自算出の注目度): 70.15099665710336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose a conditioning trick, called difference departure
from normality, applied on the generator network in response to instability
issues during GAN training. We force the generator to get closer to the
departure from normality function of real samples computed in the spectral
domain of Schur decomposition. This binding makes the generator amenable to
truncation and does not limit exploring all the possible modes. We slightly
modify the BigGAN architecture incorporating residual network for synthesizing
2D representations of audio signals which enables reconstructing high quality
sounds with some preserved phase information. Additionally, the proposed
conditional training scenario makes a trade-off between fidelity and variety
for the generated spectrograms. The experimental results on UrbanSound8k and
ESC-50 environmental sound datasets and the Mozilla common voice dataset have
shown that the proposed GAN configuration with the conditioning trick
remarkably outperforms baseline architectures, according to three objective
metrics: inception score, Frechet inception distance, and signal-to-noise
ratio.
- Abstract(参考訳): 本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱した条件付け手法を提案する。
生成器は、シューア分解のスペクトル領域で計算された実サンプルの正規性関数の出発点に近づくように強制する。
この結合により、ジェネレータは切り離すことができ、可能な全てのモードを探索することを制限することはできない。
音声信号の2次元表現を合成するための残差ネットワークを組み込んだBigGANアーキテクチャを少し改良し、保存された位相情報で高品質な音の再構成を可能にする。
さらに,提案する条件訓練シナリオでは,生成されたスペクトログラムの忠実度とバラエティのトレードオフを行う。
UrbanSound8k と ESC-50 の環境音データセットと Mozilla の共通音声データセットによる実験結果から,提案した条件付け手法による GAN 構成は,開始スコア,Frechet 開始距離,信号対雑音比の3つの客観的指標により,ベースラインアーキテクチャを著しく上回ることがわかった。
関連論文リスト
- SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - cDVGAN: One Flexible Model for Multi-class Gravitational Wave Signal and Glitch Generation [0.7853804618032806]
本稿では,複数の時間領域観測のクラスをシミュレートする手法として,ジェネレーティブ・アドリアック・ネットワーク・フレームワークに新しい条件モデルを提案する。
提案したcDVGANは,3つのクラスの特徴を再現する4種類のベースラインGANモデルより優れている。
実験の結果,cDVGAN生成データによる畳み込みニューラルネットワークのトレーニングにより,検出器ノイズに埋め込まれたサンプルの検出が向上することがわかった。
論文 参考訳(メタデータ) (2024-01-29T17:59:26Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simpler is better: spectral regularization and up-sampling techniques
for variational autoencoders [1.2234742322758418]
ニューラルネットワークに基づく生成モデルのスペクトル挙動のキャラクタリゼーションは未解決のままである。
最近の研究は、生成的対向ネットワークと、実画像と生成画像の高周波の相違に重点を置いている。
変分オートエンコーダ(VAE)のための単純な2次元フーリエ変換に基づくスペクトル正規化損失を提案する。
論文 参考訳(メタデータ) (2022-01-19T11:49:57Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Axial Residual Networks for CycleGAN-based Voice Conversion [0.0]
非並列音声変換のための新しいアーキテクチャと訓練目標の改善を提案する。
提案するCycleGANモデルでは,高周波数分解能大スペクトルから直接形状保存変換を行う。
実験により,提案モデルがサイクロンよりも優れており,ニューラルボコーダを使わずにcyclegan-vc2と同等の性能を示すことを示した。
論文 参考訳(メタデータ) (2021-02-16T10:55:35Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Noise Homogenization via Multi-Channel Wavelet Filtering for
High-Fidelity Sample Generation in GANs [47.92719758687014]
GAN(Generative Adversarial Networks)のための新しいマルチチャネルウェーブレットに基づくフィルタリング手法を提案する。
ジェネレータにウェーブレットのデコンボリューション層を埋め込むと、結果のGANであるWaveletGANがウェーブレットのデコンボリューションを利用して複数のチャネルによるフィルタリングを学習する。
オープンGANベンチマークツールを用いて,Fashion-MNIST,KMNIST,SVHNデータセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2020-05-14T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。