論文の概要: Personalized Speech Enhancement Without a Separate Speaker Embedding Model
- arxiv url: http://arxiv.org/abs/2406.09928v1
- Date: Fri, 14 Jun 2024 11:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:05:00.618418
- Title: Personalized Speech Enhancement Without a Separate Speaker Embedding Model
- Title(参考訳): 個別話者埋め込みモデルのないパーソナライズされた音声強調
- Authors: Tanel Pärnamaa, Ando Saabas,
- Abstract要約: 本稿では,PSEモデル自体の内部表現を話者埋め込みとして用いることを提案する。
提案手法は,事前学習した話者埋め込みモデルを用いた標準的な手法よりも,等しく,あるいは良好に動作することを示す。
- 参考スコア(独自算出の注目度): 3.907450460692904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized speech enhancement (PSE) models can improve the audio quality of teleconferencing systems by adapting to the characteristics of a speaker's voice. However, most existing methods require a separate speaker embedding model to extract a vector representation of the speaker from enrollment audio, which adds complexity to the training and deployment process. We propose to use the internal representation of the PSE model itself as the speaker embedding, thereby avoiding the need for a separate model. We show that our approach performs equally well or better than the standard method of using a pre-trained speaker embedding model on noise suppression and echo cancellation tasks. Moreover, our approach surpasses the ICASSP 2023 Deep Noise Suppression Challenge winner by 0.15 in Mean Opinion Score.
- Abstract(参考訳): パーソナライズされた音声強調(PSE)モデルは、話者の声の特性に適応することにより、遠隔会議システムの音質を向上させることができる。
しかし、既存のほとんどの手法では、話者の入力音声から話者のベクトル表現を抽出するために、別の話者埋め込みモデルを必要とする。
本稿では,PSEモデル自体の内部表現を話者埋め込みとして用いることを提案する。
提案手法は,騒音抑制およびエコーキャンセルタスクに事前学習した話者埋め込みモデルを用いることで,従来の手法と同等あるいは同等に動作することを示す。
さらに,本手法はICASSP 2023 Deep Noise Suppression Challengeの勝者を平均オピニオンスコアで0.15上回っている。
関連論文リスト
- ELF: Encoding Speaker-Specific Latent Speech Feature for Speech Synthesis [5.824018496599849]
多数の話者をモデル化する新しい手法を提案する。
訓練されたマルチスピーカーモデルのように、話者の全体的な特徴を詳細に表現することができる。
論文 参考訳(メタデータ) (2023-11-20T13:13:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Speaker conditioning of acoustic models using affine transformation for
multi-speaker speech recognition [5.5332967798665305]
本研究は,重畳音声シナリオにおけるターゲット話者の単一チャンネル音声認識の問題に対処する。
提案手法では,音響モデルの隠れ表現を話者補助情報によって変調し,所望の話者のみを認識する。
WSJコーパスの実験により,提案手法は,複数話者音声認識のための音響特徴を持つ話者補助情報を融合する有効な解法であることが示された。
論文 参考訳(メタデータ) (2021-10-30T19:49:52Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection [25.05285328404576]
特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
論文 参考訳(メタデータ) (2021-05-08T00:15:57Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。