Fugu-MT 論文翻訳(概要): CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement

論文の概要: CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement

arxiv url: http://arxiv.org/abs/2209.11112v2
Date: Fri, 23 Sep 2022 10:46:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 10:46:50.528158
Title: CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement
Title（参考訳）: CMGAN: モノラル音声強調のためのコンバータベースメトリックGAN
Authors: Sherif Abdulatif, Ruizhe Cao, Bin Yang
Abstract要約: 音声強調のためのコンバータを用いた距離生成対向ネットワーク(CMGAN)を提案する。ジェネレータは、2段コンバータブロックを用いて、大きさと複雑な分光図情報を符号化する。 CMGANは3つの音声強調課題における最先端手法と比較して優れた性能を示すことができる。
参考スコア（独自算出の注目度）: 7.1764897101213965
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Convolution-augmented transformers (Conformers) are recently proposed in various speech-domain applications, such as automatic speech recognition (ASR) and speech separation, as they can capture both local and global dependencies. In this paper, we propose a conformer-based metric generative adversarial network (CMGAN) for speech enhancement (SE) in the time-frequency (TF) domain. The generator encodes the magnitude and complex spectrogram information using two-stage conformer blocks to model both time and frequency dependencies. The decoder then decouples the estimation into a magnitude mask decoder branch to filter out unwanted distortions and a complex refinement branch to further improve the magnitude estimation and implicitly enhance the phase information. Additionally, we include a metric discriminator to alleviate metric mismatch by optimizing the generator with respect to a corresponding evaluation score. Objective and subjective evaluations illustrate that CMGAN is able to show superior performance compared to state-of-the-art methods in three speech enhancement tasks (denoising, dereverberation and super-resolution). For instance, quantitative denoising analysis on Voice Bank+DEMAND dataset indicates that CMGAN outperforms various previous models with a margin, i.e., PESQ of 3.41 and SSNR of 11.10 dB.
Abstract（参考訳）: 畳み込み拡張変換器 (Conformer) は、局所的およびグローバルな依存関係の両方をキャプチャできる自動音声認識 (ASR) や音声分離など、様々な言語領域のアプリケーションで最近提案されている。本稿では、時間周波数(TF)領域における音声強調(SE)のためのコンストラクタに基づく計量生成逆ネットワーク(CMGAN)を提案する。ジェネレータは、2段コンバータブロックを用いて、時間および周波数依存性の両方をモデル化する。そして、デコーダは、推定をマグニチュードマスクデコーダブランチに分離し、望ましくない歪みと複雑な精細ブランチをフィルタリングし、マグニチュード推定をさらに改善し、位相情報を暗黙的に強化する。さらに、対応する評価スコアに対して、ジェネレータを最適化することにより、メトリックミスマッチを緩和するメトリック判別器を含む。目的的,主観的な評価は,CMGANが3つの音声強調タスク(デノイング,デノベーション,超解像)における最先端手法と比較して優れた性能を示すことを示す。例えば、Voice Bank+DEMANDデータセットの定量化分析では、CMGANは、マージンが3.41のPSSQと11.10dBのSSNRよりも優れている。

関連論文リスト

DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis [4.834986020597738]
変形性周期ネットワークに基づくGAN(DPN-GAN)を提案する。 DPN-GANは、カーネルベースの周期的ReLUアクティベーション機能を導入し、オーディオ生成の周期的バイアスを誘導する。 DPN-GAN小パラメータ (38.67Mパラメータ) とDPN-GAN大パラメータ (124Mパラメータ) の2種類のモデルを訓練した。
論文参考訳（メタデータ） (2025-05-14T02:52:16Z)
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文参考訳（メタデータ） (2024-08-12T16:23:58Z)
Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。我々のモデルは、英語で約2.5%の競争力のある単語誤り率(WER)を達成し、スペイン語で既存のアプローチを上回ります。
論文参考訳（メタデータ） (2024-07-09T07:15:56Z)
A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-15T00:03:16Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Adversarial Training of Denoising Diffusion Model Using Dual Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文参考訳（メタデータ） (2023-08-03T07:22:04Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Unsupervised speech enhancement with deep dynamical generative speech and noise models [26.051535142743166]
本研究は、クリーン音声モデルとして動的変分オートエンコーダ(DVAE)、ノイズモデルとして非負行列分解(NMF)を用いた教師なし音声強調に関する以前の研究に基づいている。本研究では,NMFノイズモデルにDVAE潜伏変数,雑音観測,あるいはその両方に依存する深部動的生成モデル(DDGM)を置き換えることを提案する。
論文参考訳（メタデータ） (2023-06-13T14:52:35Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文参考訳（メタデータ） (2022-11-02T15:03:50Z)
Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain [18.090665052145653]
複素数値深層ニューラルネットワークを用いた音声強調のための新しい訓練課題を提案する。微分方程式の定式化の中でこのトレーニングタスクを導出することにより、予測子-相関子標本化が可能となる。
論文参考訳（メタデータ） (2022-03-31T12:53:47Z)
CTAL: Pre-training Cross-modal Transformer for Audio-and-Language Representations [20.239063010740853]
音声と言語間のモダリティ内およびモダリティ間接続を学習することを目的としたCTAL(Cross-modal Transformer for Audio-and-Language)を提案する。感情分類,感情分析,話者検証など,様々なタスクにまたがる顕著な改善が観察された。
論文参考訳（メタデータ） (2021-09-01T04:18:19Z)
Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。 TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-03-30T08:09:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。