論文の概要: CMGAN: Conformer-based Metric GAN for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2203.15149v4
- Date: Sun, 3 Mar 2024 15:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:27:49.296897
- Title: CMGAN: Conformer-based Metric GAN for Speech Enhancement
- Title(参考訳): CMGAN:音声強調のためのコンバータベースメトリックGAN
- Authors: Ruizhe Cao, Sherif Abdulatif, Bin Yang
- Abstract要約: 本稿では,時間周波数領域に対する共振器を用いた距離生成逆ネットワーク(CMGAN)を提案する。
本生成装置では,2段コンバータブロックを用いて,全等級および複雑なスペクトログラム情報を集約する。
デコーダ段階では、大きさと複素スペクトルの推定を分離し、拡張された音声を再構成するために共同で組み込む。
- 参考スコア(独自算出の注目度): 6.480967714783858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, convolution-augmented transformer (Conformer) has achieved
promising performance in automatic speech recognition (ASR) and time-domain
speech enhancement (SE), as it can capture both local and global dependencies
in the speech signal. In this paper, we propose a conformer-based metric
generative adversarial network (CMGAN) for SE in the time-frequency (TF)
domain. In the generator, we utilize two-stage conformer blocks to aggregate
all magnitude and complex spectrogram information by modeling both time and
frequency dependencies. The estimation of magnitude and complex spectrogram is
decoupled in the decoder stage and then jointly incorporated to reconstruct the
enhanced speech. In addition, a metric discriminator is employed to further
improve the quality of the enhanced estimated speech by optimizing the
generator with respect to a corresponding evaluation score. Quantitative
analysis on Voice Bank+DEMAND dataset indicates the capability of CMGAN in
outperforming various previous models with a margin, i.e., PESQ of 3.41 and
SSNR of 11.10 dB.
- Abstract(参考訳): 近年,畳み込み拡張変換器(Conformer)は,音声信号の局所的および大域的依存関係を捕捉し,音声認識(ASR)と時間領域音声強調(SE)において有望な性能を実現している。
本稿では、時間周波数(TF)領域におけるSEのためのコンバータベース計量生成逆ネットワーク(CMGAN)を提案する。
生成器では2段コンバータブロックを用いて時間と周波数の双方の依存性をモデル化し,全等級および複雑なスペクトログラム情報を集約する。
マグニチュードと複素スペクトログラムの推定はデコーダの段階でデカップリングされ、統合されて拡張音声を再構築する。
さらに、対応する評価スコアに対してジェネレータを最適化することにより、拡張推定音声の品質をさらに向上させるために、計量判別器を用いる。
Voice Bank+DEMANDデータセットの定量的分析は、CMGANが、マージン3.41のPSSQと11.10dBのSSNRといった、様々な過去のモデルを上回る能力を示している。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。
本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-24T03:25:51Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations [67.18006078950337]
グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
論文 参考訳(メタデータ) (2020-09-02T01:07:29Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。