論文の概要: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization
- arxiv url: http://arxiv.org/abs/1901.09146v4
- Date: Wed, 8 Mar 2023 23:46:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 04:40:32.393779
- Title: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization
- Title(参考訳): 共同SDRとPSSQ最適化のためのエンドツーエンドマルチタスクDenoising
- Authors: Jaeyoung Kim, Mostafa El-Khamy and Jungwon Lee
- Abstract要約: ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。
既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.15288441772729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised learning based on a deep neural network recently has achieved
substantial improvement on speech enhancement. Denoising networks learn mapping
from noisy speech to clean one directly, or to a spectrum mask which is the
ratio between clean and noisy spectra. In either case, the network is optimized
by minimizing mean square error (MSE) between ground-truth labels and
time-domain or spectrum output. However, existing schemes have either of two
critical issues: spectrum and metric mismatches. The spectrum mismatch is a
well known issue that any spectrum modification after short-time Fourier
transform (STFT), in general, cannot be fully recovered after inverse
short-time Fourier transform (ISTFT). The metric mismatch is that a
conventional MSE metric is sub-optimal to maximize our target metrics,
signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality
(PESQ). This paper presents a new end-to-end denoising framework with the goal
of joint SDR and PESQ optimization. First, the network optimization is
performed on the time-domain signals after ISTFT to avoid spectrum mismatch.
Second, two loss functions which have improved correlations with SDR and PESQ
metrics are proposed to minimize metric mismatch. The experimental result
showed that the proposed denoising scheme significantly improved both SDR and
PESQ performance over the existing methods.
- Abstract(参考訳): 近年,ディープニューラルネットワークに基づく教師付き学習は,音声強調の大幅な改善を実現している。
ノイズキャンセリングネットワークは、ノイズの多い音声から直接、あるいはノイズの多いスペクトルの比率であるスペクトルマスクへのマッピングを学習する。
いずれの場合も、地上トラスラベルと時間領域またはスペクトル出力間の平均二乗誤差(MSE)を最小化することにより、ネットワークを最適化する。
しかし、既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。
スペクトルミスマッチは、短周期フーリエ変換(STFT)後のスペクトル変化が逆短周期フーリエ変換(ISTFT)の後に完全に回復できないというよく知られた問題である。
基準ミスマッチは,従来のMSE測度が,我々の目標測度,信号対歪み比(SDR),知覚的音声品質評価(PESQ)を最大化するための準最適である。
本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
まず、帯域ミスマッチを回避するため、ISTFT後の時間領域信号でネットワーク最適化を行う。
次に,sdr と pesq の指標との相関性を改善した2つの損失関数を提案する。
実験の結果,提案手法は既存手法よりもSDRおよびPSSQの性能を有意に向上した。
関連論文リスト
- Fourier Amplitude and Correlation Loss: Beyond Using L2 Loss for Skillful Precipitation Nowcasting [11.931403313504754]
2つの新しい損失項からなる新しいフーリエ振幅と相関損失(FACL)を提案する。
2つの損失項は、時間的予測問題に対するMSEや重み付きMSEのような従来の$L$損失を置き換えるために協力する。
本手法は,画素単位の精度と構造的類似性に小さなトレードオフを伴って,知覚的指標と気象学のスキルスコアを改善する。
論文 参考訳(メタデータ) (2024-10-30T16:12:56Z) - Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [12.24506241611653]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。
UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である
Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。
周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文 参考訳(メタデータ) (2024-06-23T15:03:35Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Iterative Adaptive Spectroscopy of Short Signals [0.1338174941551702]
ラムゼー干渉法に基づく適応周波数検出プロトコルを開発した。
ラムゼイ配列を強化し、センシング状態と読み出し状態の両方で高い忠実度で調製することにより、高精度を実現する。
論文 参考訳(メタデータ) (2022-04-10T18:07:50Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。
現在の解は均一であり、全てのフィルタに同じビット幅を使用する。
これは異なるフィルタの異なる感度を考慮せず、最適以下である。
混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-13T07:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。