論文の概要: Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge
- arxiv url: http://arxiv.org/abs/2402.01413v2
- Date: Wed, 10 Jul 2024 11:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:49:49.287311
- Title: Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge
- Title(参考訳): 第7回CiMEチャレンジUDASE課題における音声強調手法の客観的・主観的評価
- Authors: Simon Leglaive, Matthieu Fraticelli, Hend ElGhazaly, Léonie Borne, Mostafa Sadeghi, Scott Wisdom, Manuel Pariente, John R. Hershey, Daniel Pressnitzer, Jon P. Barker,
- Abstract要約: クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
第7回CiMEチャレンジのUDASEタスクは、テスト領域からの現実的なノイズの多い音声記録を活用することを目的としている。
- 参考スコア(独自算出の注目度): 19.810337081901178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised models for speech enhancement are trained using artificially generated mixtures of clean speech and noise signals. However, the synthetic training conditions may not accurately reflect real-world conditions encountered during testing. This discrepancy can result in poor performance when the test domain significantly differs from the synthetic training domain. To tackle this issue, the UDASE task of the 7th CHiME challenge aimed to leverage real-world noisy speech recordings from the test domain for unsupervised domain adaptation of speech enhancement models. Specifically, this test domain corresponds to the CHiME-5 dataset, characterized by real multi-speaker and conversational speech recordings made in noisy and reverberant domestic environments, for which ground-truth clean speech signals are not available. In this paper, we present the objective and subjective evaluations of the systems that were submitted to the CHiME-7 UDASE task, and we provide an analysis of the results. This analysis reveals a limited correlation between subjective ratings and several supervised nonintrusive performance metrics recently proposed for speech enhancement. Conversely, the results suggest that more traditional intrusive objective metrics can be used for in-domain performance evaluation using the reverberant LibriCHiME-5 dataset developed for the challenge. The subjective evaluation indicates that all systems successfully reduced the background noise, but always at the expense of increased distortion. Out of the four speech enhancement methods evaluated subjectively, only one demonstrated an improvement in overall quality compared to the unprocessed noisy speech, highlighting the difficulty of the task. The tools and audio material created for the CHiME-7 UDASE task are shared with the community.
- Abstract(参考訳): クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
しかし、合成訓練条件は、テスト中に遭遇した現実世界の状態を正確に反映するものではない。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
この問題に対処するため,第7回CHiMEチャレンジのUDASEタスクでは,テスト領域からの実世界の雑音の多い音声記録を活用して,音声強調モデルの教師なし領域適応を目指した。
特に、このテスト領域は、実マルチスピーカと会話音声記録を特徴とするCHiME-5データセットに対応し、地上の清潔な音声信号が利用できない、騒音および残響な家庭環境下での会話音声記録を行う。
本稿では,CHiME-7 UDASEタスクに提出されたシステムの目的的,主観的な評価を行い,その結果について分析する。
この分析により、主観的評価と、最近提案された音声強調のための教師付きノンイントラッシブパフォーマンス指標との間には、限定的な相関関係が明らかとなった。
逆に、この課題のために開発された残響LibriCHiME-5データセットを用いて、ドメイン内のパフォーマンス評価に、より伝統的な侵入的客観的指標を用いることが示唆された。
主観評価は、すべてのシステムが背景雑音を低減できたが、常に歪みの増大を犠牲にしていたことを示している。
主観的に評価された4つの音声強調法のうち,未処理の雑音音声に比べて全体的な品質の向上が示され,課題の難しさを浮き彫りにした。
CHiME-7 UDASEタスクのために作成されたツールとオーディオ資料はコミュニティと共有されている。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments [0.7366405857677227]
目に見えない条件への一般化は、通常、新しい音声、雑音または部屋のインパルス応答データベースでシステムをテストすることで評価される。
本研究では,テスト条件に基づいてトレーニングした参照モデルを用いた一般化評価フレームワークを提案する。
提案手法を用いて,フィードフォワードニューラルネットワーク(FFNN),ConvTasNet,DCCRN,MANNERの一般化ポテンシャルを評価する。
論文 参考訳(メタデータ) (2023-09-12T12:51:12Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets,
Subjective Testing Framework, and Challenge Results [27.074806625047646]
DNS Challengeは、リアルタイム単一チャンネル音声強調における協調研究を促進することを目的としている。
我々は,ノイズ抑圧モデルの学習のための大規模クリーン音声コーパスとノイズコーパスをオープンソース化した。
また、ITU-T P.808をベースとしたオンライン主観的テストフレームワークをオープンソースとして公開し、研究者が開発を確実に行えるようにした。
論文 参考訳(メタデータ) (2020-05-16T23:48:37Z) - The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets,
Subjective Speech Quality and Testing Framework [27.074806625047646]
InterSPEECH 2020 Deep Noise Suppression Challengeは、リアルタイム単一チャネル音声強調における協調研究を促進することを目的としている。
我々は,騒音抑制モデルを訓練するための大規模なクリーン音声とノイズコーパスをオープンソースとして公開し,実世界のシナリオに対する代表的テストセットを作成した。
この挑戦の勝者は、P.808フレームワークを使用した代表的テストセットの主観的評価に基づいて選ばれる。
論文 参考訳(メタデータ) (2020-01-23T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。