論文の概要: MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only
on noisy/ reverberated speech
- arxiv url: http://arxiv.org/abs/2110.05866v1
- Date: Tue, 12 Oct 2021 10:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 21:34:09.257016
- Title: MetricGAN-U: Unsupervised speech enhancement/ dereverberation based only
on noisy/ reverberated speech
- Title(参考訳): MetricGAN-U: 雑音/残響音声のみに基づく教師なし音声強調/残響
- Authors: Szu-Wei Fu, Cheng Yu, Kuo-Hsuan Hung, Mirco Ravanelli, Yu Tsao
- Abstract要約: 本稿では,従来の教師なし学習から制約を解放するMetricGAN-Uを提案する。
MetricGAN-Uでは、非侵襲的な音声品質指標を最適化することにより、モデルを訓練するためにノイズの多い音声のみが必要となる。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。
- 参考スコア(独自算出の注目度): 28.012465936987013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the deep learning-based speech enhancement models are learned in a
supervised manner, which implies that pairs of noisy and clean speech are
required during training. Consequently, several noisy speeches recorded in
daily life cannot be used to train the model. Although certain unsupervised
learning frameworks have also been proposed to solve the pair constraint, they
still require clean speech or noise for training. Therefore, in this paper, we
propose MetricGAN-U, which stands for MetricGAN-unsupervised, to further
release the constraint from conventional unsupervised learning. In MetricGAN-U,
only noisy speech is required to train the model by optimizing non-intrusive
speech quality metrics. The experimental results verified that MetricGAN-U
outperforms baselines in both objective and subjective metrics.
- Abstract(参考訳): 深層学習に基づく音声強調モデルのほとんどが教師ありの方法で学習されるため、トレーニングではノイズとクリーンな音声のペアが必要となる。
そのため、日常生活で録音されたいくつかの騒がしいスピーチは、モデルのトレーニングに使用できない。
ペア制約を解決するための教師なし学習フレームワークも提案されているが、トレーニングにはクリーンなスピーチやノイズが必要である。
そこで本稿では,従来の教師なし学習からさらに制約を解放するために,教師なしメトリクスの指標であるmetricgan-uを提案する。
metricgan-uでは、非インタラクティブな音声品質指標を最適化することにより、モデルのトレーニングにノイズの多い音声のみを必要とする。
その結果,MetricGAN-Uは主観的指標と主観的指標の両方においてベースラインを上回った。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - Supervised Acoustic Embeddings And Their Transferability Across
Languages [2.28438857884398]
音声認識においては、話者変動や雑音など無関係な要因を排除しつつ、入力信号の音声内容のモデル化が不可欠である。
自己教師付き事前学習は、教師付き音声認識と教師なし音声認識の両方を改善する方法として提案されている。
論文 参考訳(メタデータ) (2023-01-03T09:37:24Z) - A Training and Inference Strategy Using Noisy and Enhanced Speech as
Target for Speech Enhancement without Clean Speech [24.036987059698415]
本稿では,拡張音声をターゲットとして用いるトレーニングと推論戦略を提案する。
NyTTの有効性の鍵は、ドメイン内ノイズと外ノイズの均一性にあるため、様々な学生モデルをリミックスして訓練する。
実験の結果,提案手法はいくつかのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:26:24Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Test-Time Adaptation Toward Personalized Speech Enhancement: Zero-Shot
Learning with Knowledge Distillation [26.39206098000297]
小型消音モデルをテスト時間特異性に適応させる新しいパーソナライズ音声強調法を提案する。
このテストタイム適応の目標は、テスト話者のクリーンな音声ターゲットを使わないことです。
欠落しているクリーンな発話ターゲットの代わりに、過度に大きな教師モデルからより高度な消音結果を蒸留します。
論文 参考訳(メタデータ) (2021-05-08T00:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。