論文の概要: Time-domain Speech Enhancement with Generative Adversarial Learning
- arxiv url: http://arxiv.org/abs/2103.16149v1
- Date: Tue, 30 Mar 2021 08:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 14:32:17.767545
- Title: Time-domain Speech Enhancement with Generative Adversarial Learning
- Title(参考訳): 生成型adversarial learningを用いた時間領域音声強調
- Authors: Feiyang Xiao, Jian Guan, Qiuqiang Kong, Wenwu Wang
- Abstract要約: 本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 53.74228907273269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement aims to obtain speech signals with high intelligibility
and quality from noisy speech. Recent work has demonstrated the excellent
performance of time-domain deep learning methods, such as Conv-TasNet. However,
these methods can be degraded by the arbitrary scales of the waveform induced
by the scale-invariant signal-to-noise ratio (SI-SNR) loss. This paper proposes
a new framework called Time-domain Speech Enhancement Generative Adversarial
Network (TSEGAN), which is an extension of the generative adversarial network
(GAN) in time-domain with metric evaluation to mitigate the scaling problem,
and provide model training stability, thus achieving performance improvement.
In addition, we provide a new method based on objective function mapping for
the theoretical analysis of the performance of Metric GAN, and explain why it
is better than the Wasserstein GAN. Experiments conducted demonstrate the
effectiveness of our proposed method, and illustrate the advantage of Metric
GAN.
- Abstract(参考訳): 音声強調は、雑音の多い音声から高い可知性と品質の音声信号を得ることを目的としている。
最近の研究は、Conv-TasNetのような時間領域深層学習手法の優れた性能を示している。
しかし、これらの手法は、スケール不変信号-雑音比(SI-SNR)損失によって誘導される波形の任意のスケールによって劣化させることができる。
本稿では,時間領域における生成逆数ネットワーク(GAN)の拡張であるTSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
さらに,Metric GANの性能の理論的解析のための目的関数マッピングに基づく新しい手法を提案し,なぜWasserstein GANよりも優れているのかを説明する。
提案手法の有効性を実証し,Metric GANの利点を実証した。
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - SCP-GAN: Self-Correcting Discriminator Optimization for Training
Consistency Preserving Metric GAN on Speech Enhancement Tasks [28.261911789087463]
本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。
本稿では,SEタスク上でGAN識別器を訓練するための自己補正最適化を提案する。
提案手法をいくつかの最先端のGANベースSEモデルで検証し、一貫した改善を得た。
論文 参考訳(メタデータ) (2022-10-26T04:48:40Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - Speech Enhancement with Score-Based Generative Models in the Complex
STFT Domain [18.090665052145653]
複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。
微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
論文 参考訳(メタデータ) (2022-03-31T12:53:47Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。