論文の概要: Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2105.03544v1
- Date: Sat, 8 May 2021 00:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 03:47:40.051183
- Title: Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation
- Title(参考訳): 個人化音声強調に向けたテスト時間適応:知識蒸留によるゼロショット学習
- Authors: Sunwoo Kim and Minje Kim
- Abstract要約: 小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
- 参考スコア(独自算出の注目度): 26.39206098000297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In realistic speech enhancement settings for end-user devices, we often
encounter only a few speakers and noise types that tend to reoccur in the
specific acoustic environment. We propose a novel personalized speech
enhancement method to adapt a compact denoising model to the test-time
specificity. Our goal in this test-time adaptation is to utilize no clean
speech target of the test speaker, thus fulfilling the requirement for
zero-shot learning. To complement the lack of clean utterance, we employ the
knowledge distillation framework. Instead of the missing clean utterance
target, we distill the more advanced denoising results from an overly large
teacher model, and use it as the pseudo target to train the small student
model. This zero-shot learning procedure circumvents the process of collecting
users' clean speech, a process that users are reluctant to comply due to
privacy concerns and technical difficulty of recording clean voice. Experiments
on various test-time conditions show that the proposed personalization method
achieves significant performance gains compared to larger baseline networks
trained from a large speaker- and noise-agnostic datasets. In addition, since
the compact personalized models can outperform larger general-purpose models,
we claim that the proposed method performs model compression with no loss of
denoising performance.
- Abstract(参考訳): エンドユーザーデバイスにおける現実的な音声強調設定では、特定の音響環境において再起しがちな話者やノイズタイプに遭遇することが多い。
本稿では,テスト時間特異性に適応するコンパクトな認知モデルを実現するための,パーソナライズされた音声強調手法を提案する。
このテスト時間適応の目標は、テスト話者のクリーンな音声目標を活用せず、ゼロショット学習の要件を満たすことである。
クリーン発話の欠如を補うため,我々は知識蒸留の枠組みを採用している。
欠落しているクリーンな発話目標の代わりに、非常に大きな教師モデルからより高度な発音結果を抽出し、それを疑似目標として、小学生モデルを訓練します。
このゼロショット学習手順は、プライバシの懸念やクリーン音声の録音が技術的に困難であることから、ユーザのクリーンスピーチの収集プロセスを回避するものだ。
種々の試験時間条件における実験により,提案手法は,大規模話者・雑音に依存しないデータセットからトレーニングした大規模ベースラインネットワークと比較して,大幅な性能向上を実現することが示された。
また,コンパクトなパーソナライズモデルが汎用モデルよりも優れた性能を持つため,提案手法は分散性能を損なうことなくモデル圧縮を行うことができると主張している。
関連論文リスト
- Self-supervised Pretraining for Robust Personalized Voice Activity
Detection in Adverse Conditions [0.0]
我々は、自己回帰予測符号化フレームワークを用いて、長期記憶(LSTM)エンコーダを事前訓練する。
パーソナライズされたVADのロバスト性を改善することを目的として,APCのデノベーション版も提案する。
実験の結果, 自己指導型プレトレーニングは, 清潔な条件下での性能を向上させるだけでなく, 悪条件に対してより堅牢なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:36:17Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech [24.036987059698415]
本稿では,拡張音声をターゲットとして用いるトレーニングと推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、様々な学生モデルをリミックスして訓練する。
実験の結果,提案手法はいくつかのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:26:24Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Self-Supervised Learning from Contrastive Mixtures for Personalized
Speech Enhancement [19.645016575334786]
この研究は、話者固有の特徴を発見するために、自己教師付き学習を普遍的に利用する方法を探求する。
ノイズの多いデータをその場しのぎの訓練対象として扱う,単純なコントラスト学習手法を開発した。
論文 参考訳(メタデータ) (2020-11-06T15:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。