論文の概要: Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech
- arxiv url: http://arxiv.org/abs/2402.16321v1
- Date: Mon, 26 Feb 2024 06:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:22:06.085031
- Title: Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech
- Title(参考訳): クリーン音声のみを用いた自己監督音声品質評価と改善
- Authors: Szu-Wei Fu, Kuo-Hsuan Hung, Yu Tsao, Yu-Chiang Frank Wang
- Abstract要約: ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
- 参考スコア(独自算出の注目度): 50.95292368372455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech quality estimation has recently undergone a paradigm shift from
human-hearing expert designs to machine-learning models. However, current
models rely mainly on supervised learning, which is time-consuming and
expensive for label collection. To solve this problem, we propose VQScore, a
self-supervised metric for evaluating speech based on the quantization error of
a vector-quantized-variational autoencoder (VQ-VAE). The training of VQ-VAE
relies on clean speech; hence, large quantization errors can be expected when
the speech is distorted. To further improve correlation with real quality
scores, domain knowledge of speech processing is incorporated into the model
design. We found that the vector quantization mechanism could also be used for
self-supervised speech enhancement (SE) model training. To improve the
robustness of the encoder for SE, a novel self-distillation mechanism combined
with adversarial training is introduced. In summary, the proposed speech
quality estimation method and enhancement models require only clean speech for
training without any label requirements. Experimental results show that the
proposed VQScore and enhancement model are competitive with supervised
baselines. The code will be released after publication.
- Abstract(参考訳): 音声品質推定は、最近、人間聴きのエキスパートデザインから機械学習モデルへのパラダイムシフトを経験している。
しかし、現在のモデルは主に教師あり学習に依存しており、ラベル収集には時間と費用がかかる。
この問題を解決するために,ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
実際の品質スコアとの相関性をさらに向上するため、モデル設計に音声処理のドメイン知識が組み込まれている。
ベクトル量子化機構は、自己教師付き音声強調(SE)モデルトレーニングにも利用できることがわかった。
SE用エンコーダの堅牢性を向上させるために, 対向訓練と組み合わせた新しい自己蒸留機構を導入する。
要約すると,提案する音声品質推定法と拡張モデルは,ラベルの必要のない学習のために,クリーンな音声のみを必要とする。
実験の結果,提案するvqscoreと拡張モデルは教師付きベースラインと競合することがわかった。
コードは公開後にリリースされる。
関連論文リスト
- RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - A vector quantized masked autoencoder for audiovisual speech emotion recognition [5.8641712963450825]
本稿では,ベクトル量子化マスク付きオートエンコーダ(MAE)であるVQ-MAE-AVモデルを提案する。
音声と視覚のモダリティを融合させ,音声視覚音声系列の局所的およびグローバルな表現を学習するために,自己・横断的機構を持つマルチモーダルMAEを提案する。
実験の結果,提案手法はVoxCeleb2データベース上で事前学習され,標準的な情緒的音声視覚音声データセットに基づいて微調整され,最先端の音声視覚音声SER法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-05T14:19:46Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed
Stochastic Quantization [13.075574481614478]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックの全容量のごく一部しか使用していないことである。
本稿では,新しい量子化法と量子化法により,標準VAEを拡張した新しいトレーニング手法を提案する。
実験の結果,SQ-VAEはコモンズを使わずにコードブックの利用を改善することがわかった。
論文 参考訳(メタデータ) (2022-05-16T09:49:37Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。