論文の概要: A Teacher-student Framework for Unsupervised Speech Enhancement Using
Noise Remixing Training and Two-stage Inference
- arxiv url: http://arxiv.org/abs/2210.15368v1
- Date: Thu, 27 Oct 2022 12:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:34:49.552939
- Title: A Teacher-student Framework for Unsupervised Speech Enhancement Using
Noise Remixing Training and Two-stage Inference
- Title(参考訳): ノイズリミックス訓練と2段階推論を用いた教師なし音声強調のための教師・学生フレームワーク
- Authors: Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: 本研究では,学習基準として主観的・客観的な音声品質指標を必要としない教師教育戦略を提案する。
ドメイン内雑音と外部雑音の均一性がNyTTの有効性の鍵となるため,教師モデルの推定音声と雑音を混合することにより,様々な学生モデルを訓練する。
- 参考スコア(独自算出の注目度): 24.036987059698415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of clean speech is a practical challenge to the development of
speech enhancement systems, which means that the training of neural network
models must be done in an unsupervised manner, and there is an inevitable
mismatch between their training criterion and evaluation metric. In response to
this unfavorable situation, we propose a teacher-student training strategy that
does not require any subjective/objective speech quality metrics as learning
reference by improving the previously proposed noisy-target training (NyTT).
Because homogeneity between in-domain noise and extraneous noise is the key to
the effectiveness of NyTT, we train various student models by remixing the
teacher model's estimated speech and noise for clean-target training or raw
noisy speech and the teacher model's estimated noise for noisy-target training.
We use the NyTT model as the initial teacher model. Experimental results show
that our proposed method outperforms several baselines, especially with
two-stage inference, where clean speech is derived successively through the
bootstrap model and the final student model.
- Abstract(参考訳): クリーンスピーチの欠如は、音声強調システムの開発における実践的な課題であり、ニューラルネットワークモデルのトレーニングは教師なしの方法で行う必要があり、トレーニング基準と評価基準との間には必然的なミスマッチがある。
この不利な状況に対応するために,先述した雑音目標訓練(nytt)の改善により,主観的・目的的音声品質指標を学習基準として必要としない教師・生徒の学習戦略を提案する。
ドメイン内雑音と外雑音の均一性がNyTTの有効性の鍵となるため,教師モデルの推定した音声と雑音を,クリーンターゲットトレーニングや生雑音の訓練と教師モデルの推定した雑音とを混合することにより,様々な学生モデルを訓練する。
NyTTモデルを初期教師モデルとして使用する。
実験の結果,提案手法は,ブートストラップモデルと最終学生モデルを用いてクリーン音声を逐次導出する2段階推論において,いくつかのベースラインよりも優れていた。
関連論文リスト
- Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文 参考訳(メタデータ) (2024-09-29T07:04:50Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only
on noisy/ reverberated speech [28.012465936987013]
本稿では,従来の教師なし学習から制約を解放するMetricGAN-Uを提案する。
MetricGAN-Uでは、非侵襲的な音声品質指標を最適化することにより、モデルを訓練するためにノイズの多い音声のみが必要となる。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。
論文 参考訳(メタデータ) (2021-10-12T10:01:32Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。