論文の概要: Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification
- arxiv url: http://arxiv.org/abs/2104.02018v1
- Date: Mon, 5 Apr 2021 17:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 16:53:27.519388
- Title: Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification
- Title(参考訳): 自己監督型データ強化とパーソナライズされた音声強調
- Authors: Aswin Sivaraman, Sunwoo Kim, Minje Kim
- Abstract要約: 疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
- 参考スコア(独自算出の注目度): 24.596224536399326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training personalized speech enhancement models is innately a no-shot
learning problem due to privacy constraints and limited access to noise-free
speech from the target user. If there is an abundance of unlabeled noisy speech
from the test-time user, a personalized speech enhancement model can be trained
using self-supervised learning. One straightforward approach to model
personalization is to use the target speaker's noisy recordings as
pseudo-sources. Then, a pseudo denoising model learns to remove injected
training noises and recover the pseudo-sources. However, this approach is
volatile as it depends on the quality of the pseudo-sources, which may be too
noisy. As a remedy, we propose an improvement to the self-supervised approach
through data purification. We first train an SNR predictor model to estimate
the frame-by-frame SNR of the pseudo-sources. Then, the predictor's estimates
are converted into weights which adjust the frame-by-frame contribution of the
pseudo-sources towards training the personalized model. We empirically show
that the proposed data purification step improves the usability of the
speaker-specific noisy data in the context of personalized speech enhancement.
Without relying on any clean speech recordings or speaker embeddings, our
approach may be seen as privacy-preserving.
- Abstract(参考訳): パーソナライズされた音声強調モデルのトレーニングは、本質的には、プライバシの制約とターゲットユーザからのノイズフリーな音声へのアクセスが制限されたため、ノーショット学習の問題である。
テストタイムユーザからの未ラベル音声が多数存在する場合、自己教師型学習を用いてパーソナライズされた音声強調モデルを訓練することができる。
モデルパーソナライゼーションの直接的なアプローチの1つは、ターゲット話者のうるさい録音を擬似情報源として使うことである。
そして、擬似認知モデルは、注入されたトレーニングノイズを除去し、擬似音源を復元する。
しかし、このアプローチは疑似ソースの品質に依存するため揮発的であり、ノイズが多すぎる可能性がある。
治療として,データ浄化による自己監督アプローチの改善を提案する。
まず、疑似情報源のフレーム単位のSNRを推定するためにSNR予測モデルを訓練する。
そして、予測者の推定値を重みに変換し、擬似ソースのフレーム毎の寄与を調整し、パーソナライズされたモデルをトレーニングする。
提案手法は,個人化音声強調の文脈において,話者固有の雑音データの有用性を向上させることを実証的に示す。
クリーンな音声録音やスピーカーの埋め込みに頼らずに、私たちのアプローチはプライバシー保護と見なされるかもしれない。
関連論文リスト
- Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Self-supervised Pretraining for Robust Personalized Voice Activity
Detection in Adverse Conditions [0.0]
我々は、自己回帰予測符号化フレームワークを用いて、長期記憶(LSTM)エンコーダを事前訓練する。
パーソナライズされたVADのロバスト性を改善することを目的として,APCのデノベーション版も提案する。
実験の結果, 自己指導型プレトレーニングは, 清潔な条件下での性能を向上させるだけでなく, 悪条件に対してより堅牢なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:36:17Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling
to Differential Privacy Preserving Speech Recognition [51.20130423303659]
本稿では,Poissonサブサンプルを用いたアンサンブル学習フレームワークを提案する。
DP下での強化を通じて、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を受けない。
提案手法は,<i>Poisson sub-sampling</i>によるプライバシ予算の増幅を行い,同じレベルのプライバシ予算を達成するためにノイズの少ないターゲット予測モデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-12T16:34:08Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。