論文の概要: Personalized Speech Enhancement: New Models and Comprehensive Evaluation
- arxiv url: http://arxiv.org/abs/2110.09625v1
- Date: Mon, 18 Oct 2021 21:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 15:06:32.019771
- Title: Personalized Speech Enhancement: New Models and Comprehensive Evaluation
- Title(参考訳): パーソナライズされた音声強調:新しいモデルと包括的評価
- Authors: Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang, Xiaofei Wang, Zhuo
Chen, Xuedong Huang
- Abstract要約: 従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
- 参考スコア(独自算出の注目度): 27.572537325449158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized speech enhancement (PSE) models utilize additional cues, such as
speaker embeddings like d-vectors, to remove background noise and interfering
speech in real-time and thus improve the speech quality of online video
conferencing systems for various acoustic scenarios. In this work, we propose
two neural networks for PSE that achieve superior performance to the previously
proposed VoiceFilter. In addition, we create test sets that capture a variety
of scenarios that users can encounter during video conferencing. Furthermore,
we propose a new metric to measure the target speaker over-suppression (TSOS)
problem, which was not sufficiently investigated before despite its critical
importance in deployment. Besides, we propose multi-task training with a speech
recognition back-end. Our results show that the proposed models can yield
better speech recognition accuracy, speech intelligibility, and perceptual
quality than the baseline models, and the multi-task training can alleviate the
TSOS issue in addition to improving the speech recognition accuracy.
- Abstract(参考訳): パーソナライズド音声強調(pse)モデルは、d-vectorのような話者埋め込みなどの追加のヒントを利用して、バックグラウンドノイズを除去し、音声をリアルタイムに干渉することにより、様々な音響シナリオにおけるオンラインビデオ会議システムの音声品質を向上させる。
本研究では,従来提案されていたVoiceFilterよりも優れた性能を実現する2つのPSEニューラルネットワークを提案する。
さらに,ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成する。
さらに,対象話者の過剰抑制(TSOS)問題を測定するための新しい指標を提案する。
また,音声認識バックエンドを用いたマルチタスクトレーニングを提案する。
その結果,提案モデルではベースラインモデルよりも音声認識精度,音声理解性,知覚品質が向上し,マルチタスクトレーニングでは音声認識精度の向上に加えて,tsos問題も軽減できることがわかった。
関連論文リスト
- A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。