論文の概要: A Two-stage Complex Network using Cycle-consistent Generative
Adversarial Networks for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2109.02011v1
- Date: Sun, 5 Sep 2021 07:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 07:15:49.496622
- Title: A Two-stage Complex Network using Cycle-consistent Generative
Adversarial Networks for Speech Enhancement
- Title(参考訳): 周期整合生成逆数ネットワークを用いた2段階複合ネットワークによる音声強調
- Authors: Guochen Yu, Yutian Wang, Hui Wang, Qin Zhang, Chengshi Zheng
- Abstract要約: 本稿では,CycleGANをベースとした大規模化ネットワークと複雑なスペクトル精錬ネットワークを組み合わせた,新しい2段階復調システムを提案する。
2つの公開データセットの実験的結果は、提案手法が従来型のCycleGANや他の最先端SEシステムに一貫して勝っていることを示している。
- 参考スコア(独自算出の注目度): 7.676549056780494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cycle-consistent generative adversarial networks (CycleGAN) have shown their
promising performance for speech enhancement (SE), while one intractable
shortcoming of these CycleGAN-based SE systems is that the noise components
propagate throughout the cycle and cannot be completely eliminated.
Additionally, conventional CycleGAN-based SE systems only estimate the spectral
magnitude, while the phase is unaltered. Motivated by the multi-stage learning
concept, we propose a novel two-stage denoising system that combines a
CycleGAN-based magnitude enhancing network and a subsequent complex spectral
refining network in this paper. Specifically, in the first stage, a
CycleGAN-based model is responsible for only estimating magnitude, which is
subsequently coupled with the original noisy phase to obtain a coarsely
enhanced complex spectrum. After that, the second stage is applied to further
suppress the residual noise components and estimate the clean phase by a
complex spectral mapping network, which is a pure complex-valued network
composed of complex 2D convolution/deconvolution and complex temporal-frequency
attention blocks. Experimental results on two public datasets demonstrate that
the proposed approach consistently surpasses previous one-stage CycleGANs and
other state-of-the-art SE systems in terms of various evaluation metrics,
especially in background noise suppression.
- Abstract(参考訳): cycle- consistent generative adversarial networks (cyclegan) は音声強調(se)に有望な性能を示しているが、cycleganベースのseシステムの難解な欠点は、ノイズ成分がサイクルを通じて伝播し完全に排除できないことである。
加えて、従来のCycleGANベースのSEシステムはスペクトルの大きさしか推定しないが、位相は変化しない。
本稿では,多段階学習の概念に動機づけられ,サイクルガンに基づく等級拡張ネットワークとそれに続く複雑なスペクトル精錬ネットワークを組み合わせた新しい二段階除算システムを提案する。
具体的には、第1段階では、CycleGANに基づくモデルが大きさのみを推定し、その後元の雑音相と結合して粗く拡張された複素スペクトルを得る。
その後、2段目は、複素2次元畳み込み/縮畳み込みと複素時間周波数注意ブロックからなる純粋な複素値ネットワークである複素スペクトルマッピングネットワークにより、残響成分をさらに抑制し、クリーン位相を推定する。
2つの公開データセットによる実験結果から,提案手法は従来の1段階のCycleGANや他の最先端のSEシステムを,特に背景雑音抑制の指標として一貫して上回っていることが示された。
関連論文リスト
- A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Wider or Deeper Neural Network Architecture for Acoustic Scene
Classification with Mismatched Recording Devices [59.86658316440461]
音響シーン分類(ASC)のためのロバストで低複雑性なシステムを提案する。
本稿では,まず,新しい入出力型ネットワークアーキテクチャを設計し,不一致な記録装置問題に対処する,ASCベースラインシステムを構築する。
さらなる性能向上を図りながら、低複雑性モデルを満たすために、多重スペクトルのアンサンブルとチャネル縮小の2つの手法を適用した。
論文 参考訳(メタデータ) (2022-03-23T10:27:41Z) - Amplitude-Phase Recombination: Rethinking Robustness of Convolutional
Neural Networks in Frequency Domain [31.182376196295365]
CNNは、トレーニング画像の高周波成分と密接に関連する局所最適値に収束する傾向にある。
現在の画像の位相スペクトルとイントラクタ画像の振幅スペクトルを再結合して設計されたデータ拡張に関する新しい視点。
論文 参考訳(メタデータ) (2021-08-19T04:04:41Z) - Two-Stage Self-Supervised Cycle-Consistency Network for Reconstruction
of Thin-Slice MR Images [62.4428833931443]
太いスライス磁気共鳴(MR)画像は、しばしば冠状および矢状視で構造的にぼやけている。
深層学習は、これらの低分解能(LR)症例から高分解能(HR)薄膜MR画像を再構築する大きな可能性を示している。
MRスライス再構成のための2段階自己監督型サイクル一貫性ネットワーク(TSCNet)を提案する。
論文 参考訳(メタデータ) (2021-06-29T13:29:18Z) - Accurate and Robust Deep Learning Framework for Solving Wave-Based
Inverse Problems in the Super-Resolution Regime [1.933681537640272]
本稿では,すべての長さスケールにわたる逆波散乱問題を包括的に解決するエンドツーエンドのディープラーニングフレームワークを提案する。
本フレームワークは,新たに導入された広帯域バタフライネットワークと,トレーニング中に動的にノイズを注入する簡単なトレーニング手順から構成される。
論文 参考訳(メタデータ) (2021-06-02T13:30:28Z) - Cycle-free CycleGAN using Invertible Generator for Unsupervised Low-Dose
CT Denoising [33.79188588182528]
CycleGANは低線量X線CT(CT)画像に対して高性能で高速なデノナイジングを提供する。
cycleganは2つのジェネレータと2つの識別器を必要とする。
本論文では,単一発生器と識別器から構成されるサイクルフリーのサイクルGANアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2021-04-17T13:23:36Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。