論文の概要: A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech
- arxiv url: http://arxiv.org/abs/2210.15368v3
- Date: Mon, 22 May 2023 14:02:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 05:28:05.836992
- Title: A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech
- Title(参考訳): クリーン音声を伴わない音声強調のための雑音・強調音声を用いた学習・推論戦略
- Authors: Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: 本稿では,拡張音声をターゲットとして用いるトレーニングと推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、様々な学生モデルをリミックスして訓練する。
実験の結果,提案手法はいくつかのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 24.036987059698415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The lack of clean speech is a practical challenge to the development of
speech enhancement systems, which means that there is an inevitable mismatch
between their training criterion and evaluation metric. In response to this
unfavorable situation, we propose a training and inference strategy that
additionally uses enhanced speech as a target by improving the previously
proposed noisy-target training (NyTT). Because homogeneity between in-domain
noise and extraneous noise is the key to the effectiveness of NyTT, we train
various student models by remixing 1) the teacher model's estimated speech and
noise for enhanced-target training or 2) raw noisy speech and the teacher
model's estimated noise for noisy-target training. Experimental results show
that our proposed method outperforms several baselines, especially with the
teacher/student inference, where predicted clean speech is derived successively
through the teacher and final student models.
- Abstract(参考訳): クリーンな音声の欠如は、音声強調システムの開発にとって現実的な課題であり、その訓練基準と評価基準の間に必然的なミスマッチがあることを意味する。
この不利な状況に対応するために,前述した雑音目標訓練(nytt)を改良し,拡張音声を目標とする訓練・推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、リミックスにより様々な学生モデルを訓練する。
1)強化目標訓練における教師モデルの推定発話と騒音
2) 生雑音音声と教師モデルの雑音推定
実験の結果,提案手法は,教師と学生のモデルを用いて,予測されたクリーン音声を逐次導出する教師/学生の推論において,いくつかのベースラインよりも優れていた。
関連論文リスト
- Two-stage Framework for Robust Speech Emotion Recognition Using Target Speaker Extraction in Human Speech Noise Conditions [25.490988931354185]
本稿では、ターゲット話者抽出法(TSE)と音声感情認識法(SER)を用いて、この問題に対する新たな2段階フレームワークを提案する。
まず,TSEモデルを用いて混合話者の音声を抽出し,第2段階で抽出した音声をSER訓練に用いる。
提案システムでは,TSE法を使わずに,ベースラインに比べて14.33%の非重み付き精度(UA)向上を実現している。
論文 参考訳(メタデータ) (2024-09-29T07:04:50Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only
on noisy/ reverberated speech [28.012465936987013]
本稿では,従来の教師なし学習から制約を解放するMetricGAN-Uを提案する。
MetricGAN-Uでは、非侵襲的な音声品質指標を最適化することにより、モデルを訓練するためにノイズの多い音声のみが必要となる。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。
論文 参考訳(メタデータ) (2021-10-12T10:01:32Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。