論文の概要: SCP-GAN: Self-Correcting Discriminator Optimization for Training
Consistency Preserving Metric GAN on Speech Enhancement Tasks
- arxiv url: http://arxiv.org/abs/2210.14474v1
- Date: Wed, 26 Oct 2022 04:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 16:09:59.380301
- Title: SCP-GAN: Self-Correcting Discriminator Optimization for Training
Consistency Preserving Metric GAN on Speech Enhancement Tasks
- Title(参考訳): SCP-GAN:音声強調課題における訓練一貫性保持基準GANのための自己補正判別器最適化
- Authors: Vasily Zadorozhnyy and Qiang Ye and Kazuhito Koishida
- Abstract要約: 本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。
本稿では,SEタスク上でGAN識別器を訓練するための自己補正最適化を提案する。
提案手法をいくつかの最先端のGANベースSEモデルで検証し、一貫した改善を得た。
- 参考スコア(独自算出の注目度): 28.261911789087463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Generative Adversarial Networks (GANs) have produced
significantly improved results in speech enhancement (SE) tasks. They are
difficult to train, however. In this work, we introduce several improvements to
the GAN training schemes, which can be applied to most GAN-based SE models. We
propose using consistency loss functions, which target the inconsistency in
time and time-frequency domains caused by Fourier and Inverse Fourier
Transforms. We also present self-correcting optimization for training a GAN
discriminator on SE tasks, which helps avoid "harmful" training directions for
parts of the discriminator loss function. We have tested our proposed methods
on several state-of-the-art GAN-based SE models and obtained consistent
improvements, including new state-of-the-art results for the Voice Bank+DEMAND
dataset.
- Abstract(参考訳): 近年,GAN(Generative Adversarial Networks)は,音声強調(SE)タスクの大幅な改善を実現している。
しかし、訓練は難しい。
本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。
フーリエ変換と逆フーリエ変換による時間領域と時間領域の不整合を対象とする一貫性損失関数を用いることを提案する。
また,SEタスク上でGAN識別器を訓練するための自己補正最適化も提案し,識別器損失関数の一部に対する「有害な」訓練方向の回避を支援する。
我々は,最先端のganベースseモデル上で提案手法をテストし,音声バンク+オンデマンドデータセットの最新の結果を含む一貫した改善を行った。
関連論文リスト
- Private GANs, Revisited [16.570354461039603]
差分的私的GANの訓練における標準的アプローチは,訓練修正後の有意に改善した結果が得られることを示す。
単純な修正 -- ジェネレータステップ間での差別化のステップをより多く取る -- が、ジェネレータと差別化のパリティを回復し、結果を改善することを示しています。
論文 参考訳(メタデータ) (2023-02-06T17:11:09Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain [18.090665052145653]
複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。
微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
論文 参考訳(メタデータ) (2022-03-31T12:53:47Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Training GANs with Stronger Augmentations via Contrastive Discriminator [80.8216679195]
本稿では,gan判別器にコントラスト表現学習方式を導入する。
この「融合」により、識別者は訓練の不安定さを増すことなく、より強力な増強に対処できる。
実験の結果,contratd付きganはfidを一貫して改善し,データ拡張を組み込んだ他の手法と比較した。
論文 参考訳(メタデータ) (2021-03-17T16:04:54Z) - Improving GAN Training with Probability Ratio Clipping and Sample
Reweighting [145.5106274085799]
GAN(Generative Adversarial Network)は、不安定なトレーニングにより性能が低下することが多い。
本稿では,より優れたトレーニング安定性を享受する新しい変分GANトレーニングフレームワークを提案する。
多様な最先端のGANアーキテクチャにトレーニングアプローチを組み込むことで、幅広いタスクに対して大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2020-06-12T01:39:48Z) - Stabilizing Training of Generative Adversarial Nets via Langevin Stein
Variational Gradient Descent [11.329376606876101]
我々は,新しい粒子に基づく変分推論(LSVGD)によるGANトレーニングの安定化を提案する。
LSVGDのダイナミクスは暗黙の規則化を持ち、粒子の広がりと多様性を高めることができることを示す。
論文 参考訳(メタデータ) (2020-04-22T11:20:04Z) - Feature Quantization Improves GAN Training [126.02828112121874]
識別器の特徴量子化(FQ)は、真と偽のデータの両方を共有離散空間に埋め込む。
本手法は,既存のGANモデルに容易に接続でき,訓練における計算オーバーヘッドがほとんどない。
論文 参考訳(メタデータ) (2020-04-05T04:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。