論文の概要: Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection
- arxiv url: http://arxiv.org/abs/2105.03542v1
- Date: Sat, 8 May 2021 00:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 03:59:20.020080
- Title: Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection
- Title(参考訳): 話者インフォームドモデル選択によるゼロショット個人化音声強調
- Authors: Aswin Sivaraman, Minje Kim
- Abstract要約: 特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
- 参考スコア(独自算出の注目度): 25.05285328404576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a novel zero-shot learning approach towards personalized
speech enhancement through the use of a sparsely active ensemble model.
Optimizing speech denoising systems towards a particular test-time speaker can
improve performance and reduce run-time complexity. However, test-time model
adaptation may be challenging if collecting data from the test-time speaker is
not possible. To this end, we propose using an ensemble model wherein each
specialist module denoises noisy utterances from a distinct partition of
training set speakers. The gating module inexpensively estimates test-time
speaker characteristics in the form of an embedding vector and selects the most
appropriate specialist module for denoising the test signal. Grouping the
training set speakers into non-overlapping semantically similar groups is
non-trivial and ill-defined. To do this, we first train a Siamese network using
noisy speech pairs to maximize or minimize the similarity of its output vectors
depending on whether the utterances derive from the same speaker or not. Next,
we perform k-means clustering on the latent space formed by the averaged
embedding vectors per training set speaker. In this way, we designate speaker
groups and train specialist modules optimized around partitions of the complete
training set. Our experiments show that ensemble models made up of low-capacity
specialists can outperform high-capacity generalist models with greater
efficiency and improved adaptation towards unseen test-time speakers.
- Abstract(参考訳): 本稿では,スパースアクティブアンサンブルモデルを用いて,パーソナライズされた音声強調に対するゼロショット学習手法を提案する。
特定のテスト時間話者に向かって音声を発音するシステムを最適化することは、パフォーマンスを改善し、実行時の複雑さを低減できる。
しかし、テストタイム話者からデータを収集できない場合、テストタイムモデル適応は困難である。
そこで,本研究では,各専門家モジュールが学習集合話者の異なる分割から雑音発話を発音するアンサンブルモデルを提案する。
ゲーティングモジュールは、埋め込みベクトルの形でテスト時間スピーカ特性を安価に推定し、テスト信号をデノージする最も適切な専門モジュールを選択する。
トレーニングセットの話者を重複しない意味的に類似したグループにグループ化することは、自明で未定義である。
そこで我々はまず、雑音の多い音声対を用いてシームズネットワークを訓練し、同じ話者から発する発話の有無に応じて出力ベクトルの類似性を最大化または最小化する。
次に、トレーニングセット話者あたりの平均埋め込みベクトルによって形成された潜在空間上でk平均クラスタリングを行う。
このように話者グループを定義し,完全なトレーニングセットの分割を中心に最適化した専門モジュールを訓練する。
実験の結果,低容量スペシャリストによるアンサンブルモデルでは,高容量ジェネリストモデルよりも効率が良く,テストタイムの未確認話者への適応性が向上することがわかった。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Personalized Speech Enhancement Without a Separate Speaker Embedding Model [3.907450460692904]
本稿では,PSEモデル自体の内部表現を話者埋め込みとして用いることを提案する。
提案手法は,事前学習した話者埋め込みモデルを用いた標準的な手法よりも,等しく,あるいは良好に動作することを示す。
論文 参考訳(メタデータ) (2024-06-14T11:16:46Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Unsupervised Personalization of an Emotion Recognition System: The
Unique Properties of the Externalization of Valence in Speech [37.6839508524855]
音声感情認識システムを特定の話者に適用することは、特にディープニューラルネットワーク(DNN)において難しい問題である。
本研究は,テストセットの話者と同じような音響パターンを持つ列車の話者を探索することにより,この問題に対処するための教師なしアプローチを提案する。
本稿では,一意な話者,オーバサンプリング,重み付けという3つの方法を提案する。
論文 参考訳(メタデータ) (2022-01-19T22:14:49Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。