論文の概要: The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets,
Subjective Speech Quality and Testing Framework
- arxiv url: http://arxiv.org/abs/2001.08662v2
- Date: Sun, 19 Apr 2020 16:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:30:09.253534
- Title: The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets,
Subjective Speech Quality and Testing Framework
- Title(参考訳): InterSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Speech Quality and Testing Framework
- Authors: Chandan K. A. Reddy, Ebrahim Beyrami, Harishchandra Dubey, Vishak
Gopal, Roger Cheng, Ross Cutler, Sergiy Matusevych, Robert Aichner, Ashkan
Aazami, Sebastian Braun, Puneet Rana, Sriram Srinivasan, Johannes Gehrke
- Abstract要約: InterSPEECH 2020 Deep Noise Suppression Challengeは、リアルタイム単一チャネル音声強調における協調研究を促進することを目的としている。
我々は,騒音抑制モデルを訓練するための大規模なクリーン音声とノイズコーパスをオープンソースとして公開し,実世界のシナリオに対する代表的テストセットを作成した。
この挑戦の勝者は、P.808フレームワークを使用した代表的テストセットの主観的評価に基づいて選ばれる。
- 参考スコア(独自算出の注目度): 27.074806625047646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The INTERSPEECH 2020 Deep Noise Suppression Challenge is intended to promote
collaborative research in real-time single-channel Speech Enhancement aimed to
maximize the subjective (perceptual) quality of the enhanced speech. A typical
approach to evaluate the noise suppression methods is to use objective metrics
on the test set obtained by splitting the original dataset. Many publications
report reasonable performance on the synthetic test set drawn from the same
distribution as that of the training set. However, often the model performance
degrades significantly on real recordings. Also, most of the conventional
objective metrics do not correlate well with subjective tests and lab
subjective tests are not scalable for a large test set. In this challenge, we
open-source a large clean speech and noise corpus for training the noise
suppression models and a representative test set to real-world scenarios
consisting of both synthetic and real recordings. We also open source an online
subjective test framework based on ITU-T P.808 for researchers to quickly test
their developments. The winners of this challenge will be selected based on
subjective evaluation on a representative test set using P.808 framework.
- Abstract(参考訳): InterSPEECH 2020 Deep Noise Suppression Challengeは、強調音声の主観的(知覚的)品質を最大化することを目的とした、リアルタイム単一チャネル音声強調における協調研究を促進することを目的としている。
ノイズ抑圧法を評価するための典型的なアプローチは、元のデータセットを分割して得られるテストセットの客観的メトリクスを使用することである。
多くの出版物は、訓練セットと同じ分布から引き出された合成テストセットについて合理的な性能を報告している。
しかし、しばしばモデルの性能は実際の録音で著しく低下する。
また、従来の客観的指標のほとんどは主観テストとよく相関せず、実験室の主観テストは大規模なテストセットに対してスケーラブルではない。
そこで本研究では,合成音と実音の両方からなる実世界シナリオに対して,騒音抑圧モデルのトレーニングを行うための,大規模なクリーンな音声とノイズコーパスをオープンソースとして公開する。
ITU-T P.808をベースとしたオンライン主観的テストフレームワークもオープンソースで公開しています。
このチャレンジの勝者は、p.808フレームワークを用いた代表テストセットにおける主観評価に基づいて選ばれる。
関連論文リスト
- Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。
しかし、主性能指標としての試験精度の信頼性は疑問視されている。
トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。
本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T11:38:14Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge [19.810337081901178]
クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
第7回CiMEチャレンジのUDASEタスクは、テスト領域からの現実的なノイズの多い音声記録を活用することを目的としている。
論文 参考訳(メタデータ) (2024-02-02T13:45:42Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Rethinking Evaluation in ASR: Are Our Models Robust Enough? [30.114009549372923]
一般に、残響と付加音の増補により、ドメイン間の一般化性能が向上することを示す。
ベンチマークを十分に使うと、平均単語誤り率(WER)のパフォーマンスが実世界のノイズの多いデータのパフォーマンスに良いプロキシを提供することを示した。
論文 参考訳(メタデータ) (2020-10-22T14:01:32Z) - The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets,
Subjective Testing Framework, and Challenge Results [27.074806625047646]
DNS Challengeは、リアルタイム単一チャンネル音声強調における協調研究を促進することを目的としている。
我々は,ノイズ抑圧モデルの学習のための大規模クリーン音声コーパスとノイズコーパスをオープンソース化した。
また、ITU-T P.808をベースとしたオンライン主観的テストフレームワークをオープンソースとして公開し、研究者が開発を確実に行えるようにした。
論文 参考訳(メタデータ) (2020-05-16T23:48:37Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。