論文の概要: Improving Stability of LS-GANs for Audio and Speech Signals
- arxiv url: http://arxiv.org/abs/2008.05454v1
- Date: Wed, 12 Aug 2020 17:41:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:52:48.737151
- Title: Improving Stability of LS-GANs for Audio and Speech Signals
- Title(参考訳): 音声・音声信号におけるLS-GANの安定性向上
- Authors: Mohammad Esmaeilpour, Raymel Alfonso Sallo, Olivier St-Georges,
Patrick Cardinal, Alessandro Lameiras Koerich
- Abstract要約: このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 70.15099665710336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the instability issue of generative adversarial
network (GAN) by proposing a new similarity metric in unitary space of Schur
decomposition for 2D representations of audio and speech signals. We show that
encoding departure from normality computed in this vector space into the
generator optimization formulation helps to craft more comprehensive
spectrograms. We demonstrate the effectiveness of binding this metric for
enhancing stability in training with less mode collapse compared to baseline
GANs. Experimental results on subsets of UrbanSound8k and Mozilla common voice
datasets have shown considerable improvements on the quality of the generated
samples measured by the Fr\'echet inception distance. Moreover, reconstructed
signals from these samples, have achieved higher signal to noise ratio compared
to regular LS-GANs.
- Abstract(参考訳): 本稿では,音声および音声信号の2次元表現に対するschur分解のユニタリ空間における新しい類似性指標を提案することで,gan(generative adversarial network)の不安定性問題に対処する。
このベクトル空間で計算された正規性から生成器最適化定式化への符号化は、より包括的なスペクトログラムの作成に役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
urbansound8kとmozilla common voiceデータセットのサブセットに関する実験結果は、fr\'echetインセプション距離で測定された生成されたサンプルの品質にかなり改善が見られた。
また,これらのサンプルからの再構成信号は,通常のls-ganよりも高い信号とノイズ比を達成している。
関連論文リスト
- Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Unsupervised Harmonic Parameter Estimation Using Differentiable DSP and
Spectral Optimal Transport [0.0]
スペクトルエネルギーの変位を最小限に抑える最適輸送理論に着想を得たスペクトル損失関数を提案する。
我々は、調和信号に調和テンプレートを適合させる教師なしの自動符号化タスクを通じて、このアプローチを検証する。
我々は、軽量エンコーダを用いてハーモニックの基本周波数と振幅を共同で推定し、微分可能なハーモニックシンセサイザーを用いて信号を再構成する。
論文 参考訳(メタデータ) (2023-12-22T08:10:30Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Hyperspectral Image Denoising via Self-Modulating Convolutional Neural
Networks [15.700048595212051]
相関スペクトルと空間情報を利用した自己変調畳み込みニューラルネットワークを提案する。
モデルの中心には新しいブロックがあり、隣り合うスペクトルデータに基づいて、ネットワークが適応的に特徴を変換することができる。
合成データと実データの両方の実験解析により,提案したSM-CNNは,他の最先端HSI復調法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-15T06:57:43Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。