論文の概要: A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References
- arxiv url: http://arxiv.org/abs/2508.14623v1
- Date: Wed, 20 Aug 2025 11:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.436472
- Title: A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References
- Title(参考訳): 雑音参照音声分離における歪み比に対するスケール不変信号の検討
- Authors: Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen,
- Abstract要約: 本稿では、教師付き音声分離における評価と訓練の目的として、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)を用いることの意味について検討する。
ノイズ参照によるSI-SDRの導出は、ノイズが達成可能なSI-SDRを制限すること、または分離された出力において望ましくないノイズを引き起こすことを明らかにする。
- 参考スコア(独自算出の注目度): 16.172800007896285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment the mixtures with WHAM!, aiming to train models that avoid learning noisy references. Two models trained on these enhanced datasets are evaluated with the non-intrusive NISQA.v2 metric. Results show reduced noise in separated speech but suggest that processing references may introduce artefacts, limiting overall quality gains. Negative correlation is found between SI-SDR and perceived noisiness across models on the WSJ0-2Mix and Libri2Mix test sets, underlining the conclusion from the derivation.
- Abstract(参考訳): 本稿では,実測ベンチマークWSJ0-2Mixの場合のように,教師付き音声分離における評価と訓練目的として,SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)を用いることが意味することを検討する。
ノイズ参照によるSI-SDRの導出は、ノイズが達成可能なSI-SDRを制限すること、または分離された出力において望ましくないノイズを引き起こすことを明らかにする。
これを解決するため,WHAM!との混在を増大させる手法を提案し,ノイズのある参照を学習しないモデルを訓練することを目的とした。
これらの強化データセットに基づいてトレーニングされた2つのモデルが、非侵入的NISQA.v2メトリクスを用いて評価される。
その結果、分離音声におけるノイズの低減が示唆されるが、処理基準は人工物を導入し、全体的な品質向上を抑えることが示唆された。
SI-SDRとWSJ0-2MixテストセットとLibri2Mixテストセットのモデル間でのノイズ感との間には負の相関関係が見られ、導出から結論を導出する。
関連論文リスト
- Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - DN-CL: Deep Symbolic Regression against Noise via Contrastive Learning [12.660401635672969]
textbfContrastive textbfL earning (DN-CL) を用いてtextbfNoise に対するtextittextbfDeep Regression を提案する。
DN-CLは2つのパラメータ共有エンコーダを使用して、様々なデータ変換のデータポイントをノイズに対する特徴シールドに埋め込む。
実験の結果,DN-CLはノイズやクリーンなデータを扱う上で優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-21T03:13:40Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation Learning [7.556169113399857]
Pseudo-Label Relaxed (PLR) のコントラスト損失を導入することで、エンドツーエンドの textbfPLReMix フレームワークを提案する。
提案したPLR損失はプラガブルであり,他のLNL手法に統合し,その性能改善を観察した。
論文 参考訳(メタデータ) (2024-02-27T15:22:20Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。