論文の概要: Evaluation of Deep-Learning-Based Voice Activity Detectors and Room
Impulse Response Models in Reverberant Environments
- arxiv url: http://arxiv.org/abs/2106.13511v1
- Date: Fri, 25 Jun 2021 09:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:53:58.270145
- Title: Evaluation of Deep-Learning-Based Voice Activity Detectors and Room
Impulse Response Models in Reverberant Environments
- Title(参考訳): 残響環境におけるディープラーニング音声活動検出器と室内インパルス応答モデルの評価
- Authors: Amir Ivry, Israel Cohen, Baruch Berdugo
- Abstract要約: 最先端のディープラーニングベースの音声活動検出器(VAD)は、しばしば無響データを用いて訓練される。
約500万の発話を含む拡張トレーニングセットをシミュレートする。
我々は、RIRを生成するために5つの異なるモデルと、強化トレーニングセットでトレーニングされた5つの異なるVADを検討する。
- 参考スコア(独自算出の注目度): 13.558688470594676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep-learning-based voice activity detectors (VADs) are
often trained with anechoic data. However, real acoustic environments are
generally reverberant, which causes the performance to significantly
deteriorate. To mitigate this mismatch between training data and real data, we
simulate an augmented training set that contains nearly five million
utterances. This extension comprises of anechoic utterances and their
reverberant modifications, generated by convolutions of the anechoic utterances
with a variety of room impulse responses (RIRs). We consider five different
models to generate RIRs, and five different VADs that are trained with the
augmented training set. We test all trained systems in three different real
reverberant environments. Experimental results show $20\%$ increase on average
in accuracy, precision and recall for all detectors and response models,
compared to anechoic training. Furthermore, one of the RIR models consistently
yields better performance than the other models, for all the tested VADs.
Additionally, one of the VADs consistently outperformed the other VADs in all
experiments.
- Abstract(参考訳): 最先端のディープラーニングに基づく音声活動検出装置(vad)は、しばしば無響データを用いて訓練される。
しかし、実際の音響環境は一般に残響であり、性能が著しく低下する。
トレーニングデータと実データとのミスマッチを軽減するために,500万近い発話を含む拡張トレーニングセットをシミュレートする。
この拡張は、様々な室インパルス応答(rir)を伴う無響発話の畳み込みによって生成される無響発話とその残響変化からなる。
rirの生成には5つの異なるモデルと、拡張トレーニングセットでトレーニングされる5つの異なるvadを考えます。
トレーニングされたシステムはすべて、3つの異なる実残響環境でテストします。
実験結果から,全ての検出器および応答モデルの平均精度,精度,リコールが,無響訓練と比較して20 %$上昇した。
さらに、RIRモデルの1つは、テストされた全てのVADに対して、他のモデルよりも常に優れたパフォーマンスが得られる。
さらに、VADの1つは全ての実験で他のVADよりも一貫して優れていた。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [53.07303460914328]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Noisy Training Improves E2E ASR for the Edge [22.91184103295888]
音声認識(ASR)は現代のエッジデバイスでますます普及している。
E2E ASRモデルは過度に適合する傾向があり、見えないテストデータの一般化には困難である。
本稿では,E2E ASRモデルトレーニングをさらに改善するための,シンプルで効果的な雑音訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-07-09T20:56:20Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。