論文の概要: Evaluation of Deep-Learning-Based Voice Activity Detectors and Room
Impulse Response Models in Reverberant Environments
- arxiv url: http://arxiv.org/abs/2106.13511v1
- Date: Fri, 25 Jun 2021 09:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:53:58.270145
- Title: Evaluation of Deep-Learning-Based Voice Activity Detectors and Room
Impulse Response Models in Reverberant Environments
- Title(参考訳): 残響環境におけるディープラーニング音声活動検出器と室内インパルス応答モデルの評価
- Authors: Amir Ivry, Israel Cohen, Baruch Berdugo
- Abstract要約: 最先端のディープラーニングベースの音声活動検出器(VAD)は、しばしば無響データを用いて訓練される。
約500万の発話を含む拡張トレーニングセットをシミュレートする。
我々は、RIRを生成するために5つの異なるモデルと、強化トレーニングセットでトレーニングされた5つの異なるVADを検討する。
- 参考スコア(独自算出の注目度): 13.558688470594676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art deep-learning-based voice activity detectors (VADs) are
often trained with anechoic data. However, real acoustic environments are
generally reverberant, which causes the performance to significantly
deteriorate. To mitigate this mismatch between training data and real data, we
simulate an augmented training set that contains nearly five million
utterances. This extension comprises of anechoic utterances and their
reverberant modifications, generated by convolutions of the anechoic utterances
with a variety of room impulse responses (RIRs). We consider five different
models to generate RIRs, and five different VADs that are trained with the
augmented training set. We test all trained systems in three different real
reverberant environments. Experimental results show $20\%$ increase on average
in accuracy, precision and recall for all detectors and response models,
compared to anechoic training. Furthermore, one of the RIR models consistently
yields better performance than the other models, for all the tested VADs.
Additionally, one of the VADs consistently outperformed the other VADs in all
experiments.
- Abstract(参考訳): 最先端のディープラーニングに基づく音声活動検出装置(vad)は、しばしば無響データを用いて訓練される。
しかし、実際の音響環境は一般に残響であり、性能が著しく低下する。
トレーニングデータと実データとのミスマッチを軽減するために,500万近い発話を含む拡張トレーニングセットをシミュレートする。
この拡張は、様々な室インパルス応答(rir)を伴う無響発話の畳み込みによって生成される無響発話とその残響変化からなる。
rirの生成には5つの異なるモデルと、拡張トレーニングセットでトレーニングされる5つの異なるvadを考えます。
トレーニングされたシステムはすべて、3つの異なる実残響環境でテストします。
実験結果から,全ての検出器および応答モデルの平均精度,精度,リコールが,無響訓練と比較して20 %$上昇した。
さらに、RIRモデルの1つは、テストされた全てのVADに対して、他のモデルよりも常に優れたパフォーマンスが得られる。
さらに、VADの1つは全ての実験で他のVADよりも一貫して優れていた。
関連論文リスト
- Developing an Effective Training Dataset to Enhance the Performance of AI-based Speaker Separation Systems [0.3277163122167434]
本稿では,各話者に対して,混合信号と対応する接地真実を含む現実的な学習セットを構築するための新しい手法を提案する。
実感混合における話者分離精度向上のためのSI-SDR(Scale Invariant Signal to Distortion Ratio)を1.65dB改善した。
論文 参考訳(メタデータ) (2024-11-13T06:55:18Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Self-Supervised Pretraining Improves Performance and Inference
Efficiency in Multiple Lung Ultrasound Interpretation Tasks [65.23740556896654]
肺超音波検査における複数分類課題に適用可能なニューラルネットワーク特徴抽出器を,自己指導型プレトレーニングで作成できるかどうかを検討した。
3つの肺超音波のタスクを微調整すると、事前訓練されたモデルにより、各テストセットの受信操作曲線(AUC)における平均クロスタスク面積は、それぞれ0.032と0.061に改善された。
論文 参考訳(メタデータ) (2023-09-05T21:36:42Z) - A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text
Generation [59.64193903397301]
非自己回帰モデル (NAR) はシーケンス内の複数の出力を同時に生成し、自動回帰ベースラインと比較して精度低下のコストで推論速度を著しく低減する。
エンドツーエンド自動音声認識(ASR)のための様々なNARモデリング手法の比較研究を行う。
各種課題の成果は, 精度・速度トレードオフや長文発話に対する頑健性など, NAR ASR の理解を深める上で興味深い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-11T13:05:06Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Noisy Training Improves E2E ASR for the Edge [22.91184103295888]
音声認識(ASR)は現代のエッジデバイスでますます普及している。
E2E ASRモデルは過度に適合する傾向があり、見えないテストデータの一般化には困難である。
本稿では,E2E ASRモデルトレーニングをさらに改善するための,シンプルで効果的な雑音訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-07-09T20:56:20Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。