論文の概要: Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement
- arxiv url: http://arxiv.org/abs/2301.04388v3
- Date: Mon, 26 Jun 2023 09:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 23:58:22.249543
- Title: Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement
- Title(参考訳): 音声強調のための自己教師型音声表現に基づく損失関数の知覚と予測
- Authors: George Close, William Ravenscroft, Thomas Hain and Stefan Goetze
- Abstract要約: クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
- 参考スコア(独自算出の注目度): 23.974815078687445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work in the domain of speech enhancement has explored the use of
self-supervised speech representations to aid in the training of neural speech
enhancement models. However, much of this work focuses on using the deepest or
final outputs of self supervised speech representation models, rather than the
earlier feature encodings. The use of self supervised representations in such a
way is often not fully motivated. In this work it is shown that the distance
between the feature encodings of clean and noisy speech correlate strongly with
psychoacoustically motivated measures of speech quality and intelligibility, as
well as with human Mean Opinion Score (MOS) ratings. Experiments using this
distance as a loss function are performed and improved performance over the use
of STFT spectrogram distance based loss as well as other common loss functions
from speech enhancement literature is demonstrated using objective measures
such as perceptual evaluation of speech quality (PESQ) and short-time objective
intelligibility (STOI).
- Abstract(参考訳): 音声強調領域における最近の研究は、自己教師付き音声表現を用いて、ニューラル音声強調モデルの訓練を支援している。
しかし、この研究の多くは、以前の特徴符号化よりも、自己教師付き音声表現モデルの最も深い出力や最終的な出力の使用に焦点を当てている。
このような自己監督表現の使用は、しばしば完全に動機づけられていない。
本研究は,クリーン音声とノイズ音声の特徴エンコーディングの距離が,人間の平均オピニオンスコア(MOS)評価とともに,心理音響学的に動機付けられた音声品質と聞きやすさの尺度と強く相関していることを示す。
この距離を損失関数として用いた実験を行い、音声品質知覚評価(pesq)や短時間客観知性(stoi)などの客観的尺度を用いて、音声強調文献から、stftスペクトログラム距離に基づく損失およびその他の共通損失関数を用いた場合の性能向上を実証した。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - The Effect of Spoken Language on Speech Enhancement using
Self-Supervised Speech Representation Loss Functions [21.237026538221404]
本研究は、自己教師型表現の訓練に用いられる音声の言語と、SEシステムの訓練に用いられる音声との関係を考察する。
SEシステムのトレーニングに使用するノイズの多いデータの言語を正確に共有する自己教師付き表現を組み込んだ損失関数を用いてトレーニングされた強化モデルは、正確に一致しないものよりも優れた性能を示す。
自己教師型表現の訓練言語は,強化性能に小さな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2023-07-27T09:20:38Z) - On the Behavior of Intrusive and Non-intrusive Speech Enhancement
Metrics in Predictive and Generative Settings [14.734454356396157]
予測的および生成的パラダイムの下で訓練された同じ音声強調バックボーンの性能を評価する。
侵入的・非侵入的尺度は各パラダイムごとに異なる相関関係を示す。
論文 参考訳(メタデータ) (2023-06-05T16:30:17Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。