Fugu-MT 論文翻訳(概要): End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization

論文の概要: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization

arxiv url: http://arxiv.org/abs/1901.09146v4
Date: Wed, 8 Mar 2023 23:46:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-25 04:40:32.393779
Title: End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization
Title（参考訳）: 共同SDRとPSSQ最適化のためのエンドツーエンドマルチタスクDenoising
Authors: Jaeyoung Kim, Mostafa El-Khamy and Jungwon Lee
Abstract要約: ネットワークの騒音は、ノイズの多い音声からマッピングを学習し、それらを直接掃除する。既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。
参考スコア（独自算出の注目度）: 43.15288441772729
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Supervised learning based on a deep neural network recently has achieved substantial improvement on speech enhancement. Denoising networks learn mapping from noisy speech to clean one directly, or to a spectrum mask which is the ratio between clean and noisy spectra. In either case, the network is optimized by minimizing mean square error (MSE) between ground-truth labels and time-domain or spectrum output. However, existing schemes have either of two critical issues: spectrum and metric mismatches. The spectrum mismatch is a well known issue that any spectrum modification after short-time Fourier transform (STFT), in general, cannot be fully recovered after inverse short-time Fourier transform (ISTFT). The metric mismatch is that a conventional MSE metric is sub-optimal to maximize our target metrics, signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ). This paper presents a new end-to-end denoising framework with the goal of joint SDR and PESQ optimization. First, the network optimization is performed on the time-domain signals after ISTFT to avoid spectrum mismatch. Second, two loss functions which have improved correlations with SDR and PESQ metrics are proposed to minimize metric mismatch. The experimental result showed that the proposed denoising scheme significantly improved both SDR and PESQ performance over the existing methods.
Abstract（参考訳）: 近年,ディープニューラルネットワークに基づく教師付き学習は,音声強調の大幅な改善を実現している。ノイズキャンセリングネットワークは、ノイズの多い音声から直接、あるいはノイズの多いスペクトルの比率であるスペクトルマスクへのマッピングを学習する。いずれの場合も、地上トラスラベルと時間領域またはスペクトル出力間の平均二乗誤差(MSE)を最小化することにより、ネットワークを最適化する。しかし、既存のスキームにはスペクトルと計量ミスマッチの2つの重要な問題がある。スペクトルミスマッチは、短周期フーリエ変換(STFT)後のスペクトル変化が逆短周期フーリエ変換(ISTFT)の後に完全に回復できないというよく知られた問題である。基準ミスマッチは,従来のMSE測度が,我々の目標測度,信号対歪み比(SDR),知覚的音声品質評価(PESQ)を最大化するための準最適である。本稿では,SDRとPSSQ最適化を併用した新しいエンドツーエンドデノベーションフレームワークを提案する。まず、帯域ミスマッチを回避するため、ISTFT後の時間領域信号でネットワーク最適化を行う。次に,sdr と pesq の指標との相関性を改善した2つの損失関数を提案する。実験の結果,提案手法は既存手法よりもSDRおよびPSSQの性能を有意に向上した。

関連論文リスト

MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文参考訳（メタデータ） (2025-10-12T09:05:28Z)
Natural Spectral Fusion: p-Exponent Cyclic Scheduling and Early Decision-Boundary Alignment in First-Order Optimization [11.323131201168572]
自然スペクトル融合(NSF: Natural Spectral Fusion: NSF: Reframing training as controllable spectrum coverage and information fusion)を提案する。 NSFには2つの基本原理がある: バランスを動的に低周波と高周波の情報を扱うスペクトルコントローラとして扱う。循環スケジューリングはテストエラーを一定に低減し、異なる収束挙動を示す。
論文参考訳（メタデータ） (2025-09-05T00:00:00Z)
Frequency-Weighted Training Losses for Phoneme-Level DNN-based Speech Enhancement [15.332506773218315]
時間周波数領域で定式化され、周波数依存重み付け方式によって変調されるSDR損失の知覚的インフォームド変種を提案する。これらの損失を利用して、FaSNetマルチチャネル音声強調モデルを訓練する。実験の結果、SDRなどの標準指標はわずかに改善されているものの、知覚周波数重み付けの指標の方が大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2025-06-23T14:52:34Z)
A Gradient Meta-Learning Joint Optimization for Beamforming and Antenna Position in Pinching-Antenna Systems [63.213207442368294]
マルチ導波路ピンチアンテナシステムの新しい最適化設計について検討する。提案したGML-JOアルゴリズムは,既存の最適化手法と比較して,様々な選択や性能に頑健である。
論文参考訳（メタデータ） (2025-06-14T17:35:27Z)
Fourier Amplitude and Correlation Loss: Beyond Using L2 Loss for Skillful Precipitation Nowcasting [11.931403313504754]
2つの新しい損失項からなる新しいフーリエ振幅と相関損失(FACL)を提案する。 2つの損失項は、時間的予測問題に対するMSEや重み付きMSEのような従来の$L$損失を置き換えるために協力する。本手法は,画素単位の精度と構造的類似性に小さなトレードオフを伴って,知覚的指標と気象学のスキルスコアを改善する。
論文参考訳（メタデータ） (2024-10-30T16:12:56Z)
Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文参考訳（メタデータ） (2024-10-30T08:32:47Z)
UDHF2-Net: Uncertainty-diffusion-model-based High-Frequency TransFormer Network for Remotely Sensed Imagery Interpretation [12.24506241611653]
不確実拡散モデルに基づく高周波トランスフォーマーネットワーク(UDHF2-Net)が最初に提案される。 UDHF2-Netは空間定常非定常高周波接続パラダイム(SHCP)である Mask-and-geo-knowledge-based uncertainty diffusion module (MUDM) は自己指導型学習戦略である。周波数ワイド半擬似半擬似UDHF2-Netは、変更検出の精度と複雑さのバランスをとるために提案された最初のものである。
論文参考訳（メタデータ） (2024-06-23T15:03:35Z)
Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文参考訳（メタデータ） (2023-09-12T13:03:47Z)
Iterative Adaptive Spectroscopy of Short Signals [0.1338174941551702]
ラムゼー干渉法に基づく適応周波数検出プロトコルを開発した。ラムゼイ配列を強化し、センシング状態と読み出し状態の両方で高い忠実度で調製することにより、高精度を実現する。
論文参考訳（メタデータ） (2022-04-10T18:07:50Z)
A neural network-supported two-stage algorithm for lightweight dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文参考訳（メタデータ） (2022-04-06T11:08:28Z)
Single-channel speech separation using Soft-minimum Permutation Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。 Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-16T17:25:05Z)
Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文参考訳（メタデータ） (2020-08-12T17:41:25Z)
Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文参考訳（メタデータ） (2020-05-18T10:31:19Z)
Rethinking Differentiable Search for Mixed-Precision Neural Networks [83.55785779504868]
低ビット幅に量子化された重みとアクティベーションを持つ低精度ネットワークは、エッジデバイスでの推論を加速するために広く利用されている。現在の解は均一であり、全てのフィルタに同じビット幅を使用する。これは異なるフィルタの異なる感度を考慮せず、最適以下である。混合精度ネットワークは、ビット幅を個々のフィルタ要求に調整することでこの問題に対処する。
論文参考訳（メタデータ） (2020-04-13T07:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。