論文の概要: Self-Supervised Learning from Contrastive Mixtures for Personalized
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2011.03426v2
- Date: Tue, 9 Aug 2022 18:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 05:52:42.696675
- Title: Self-Supervised Learning from Contrastive Mixtures for Personalized
Speech Enhancement
- Title(参考訳): 個人化音声強調のためのコントラスト混合からの自己教師付き学習
- Authors: Aswin Sivaraman and Minje Kim
- Abstract要約: この研究は、話者固有の特徴を発見するために、自己教師付き学習を普遍的に利用する方法を探求する。
ノイズの多いデータをその場しのぎの訓練対象として扱う,単純なコントラスト学習手法を開発した。
- 参考スコア(独自算出の注目度): 19.645016575334786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores how self-supervised learning can be universally used to
discover speaker-specific features towards enabling personalized speech
enhancement models. We specifically address the few-shot learning scenario
where access to cleaning recordings of a test-time speaker is limited to a few
seconds, but noisy recordings of the speaker are abundant. We develop a simple
contrastive learning procedure which treats the abundant noisy data as
makeshift training targets through pairwise noise injection: the model is
pretrained to maximize agreement between pairs of differently deformed
identical utterances and to minimize agreement between pairs of similarly
deformed nonidentical utterances. Our experiments compare the proposed
pretraining approach with two baseline alternatives: speaker-agnostic
fully-supervised pretraining, and speaker-specific self-supervised pretraining
without contrastive loss terms. Of all three approaches, the proposed method
using contrastive mixtures is found to be most robust to model compression
(using 85% fewer parameters) and reduced clean speech (requiring only 3
seconds).
- Abstract(参考訳): 本研究は,個人化音声強調モデルの実現に向けて,話者特有の特徴を発見するために,自己教師付き学習を普遍的に活用する方法について検討する。
具体的には、テストタイムスピーカーのクリーニング記録へのアクセスが数秒に制限されているが、ノイズの多いスピーカーの録音が豊富である、という、数ショットの学習シナリオに対処する。
提案手法は,同一発話の異なる対間の一致を最大化し,類似した非同一発話の対間の一致を最小化するために事前学習される。
提案手法は, 話者非依存型完全教師付き事前訓練と, 話者固有の自己教師付き事前訓練の2つのベースラインとを比較した。
これら3つの手法のうち, コントラスト混合を用いた提案手法は, モデル圧縮(パラメータの85%削減)とクリーン音声(3秒のみ要求)の低減に最も頑健であることがわかった。
関連論文リスト
- Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - End-to-End Speech Recognition and Disfluency Removal with Acoustic
Language Model Pretraining [0.0]
2段階モデルとエンドツーエンドモデルのパフォーマンス比較を再考する。
弱自己教師対象を用いて事前訓練された音声ベース言語モデルは、同様に訓練された2段階モデルの性能に適合するか、超えていることがわかった。
論文 参考訳(メタデータ) (2023-09-08T17:12:14Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - On monoaural speech enhancement for automatic recognition of real noisy
speech using mixture invariant training [33.79711018198589]
既存の混合不変訓練基準を拡張して、未ペア音声と実雑音データの両方を利用する。
実雑音音声から分離した音声の品質を向上させるためには, 未ペアクリーン音声が不可欠であることがわかった。
提案手法は、処理成果物を軽減するために、処理された信号と処理されていない信号のリミックスも行う。
論文 参考訳(メタデータ) (2022-05-03T19:37:58Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。