論文の概要: On the Behavior of Intrusive and Non-intrusive Speech Enhancement
Metrics in Predictive and Generative Settings
- arxiv url: http://arxiv.org/abs/2306.03014v1
- Date: Mon, 5 Jun 2023 16:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:53:30.833333
- Title: On the Behavior of Intrusive and Non-intrusive Speech Enhancement
Metrics in Predictive and Generative Settings
- Title(参考訳): 予測的・生成的設定における侵入的・非侵入的音声強調尺度の挙動について
- Authors: Danilo de Oliveira, Julius Richter, Jean-Marie Lemercier, Tal Peer,
Timo Gerkmann
- Abstract要約: 予測的および生成的パラダイムの下で訓練された同じ音声強調バックボーンの性能を評価する。
侵入的・非侵入的尺度は各パラダイムごとに異なる相関関係を示す。
- 参考スコア(独自算出の注目度): 14.734454356396157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since its inception, the field of deep speech enhancement has been dominated
by predictive (discriminative) approaches, such as spectral mapping or masking.
Recently, however, novel generative approaches have been applied to speech
enhancement, attaining good denoising performance with high subjective quality
scores. At the same time, advances in deep learning also allowed for the
creation of neural network-based metrics, which have desirable traits such as
being able to work without a reference (non-intrusively). Since generatively
enhanced speech tends to exhibit radically different residual distortions, its
evaluation using instrumental speech metrics may behave differently compared to
predictively enhanced speech. In this paper, we evaluate the performance of the
same speech enhancement backbone trained under predictive and generative
paradigms on a variety of metrics and show that intrusive and non-intrusive
measures correlate differently for each paradigm. This analysis motivates the
search for metrics that can together paint a complete and unbiased picture of
speech enhancement performance, irrespective of the model's training process.
- Abstract(参考訳): 発声以来、深層音声強調の分野はスペクトルマッピングやマスキングといった予測的(差別的な)アプローチによって支配されてきた。
しかし近年, 音声強調に新たな生成手法が適用され, 高い主観的品質スコアが得られた。
同時に、ディープラーニングの進歩により、(非侵襲的に)参照なしで動作できるなど、望ましい特性を持つニューラルネットワークベースのメトリクスの作成も可能になった。
生成的強化音声は、大きく異なる残留歪みを示す傾向があるため、その評価は予測的強化音声と異なる振る舞いをする可能性がある。
本稿では,予測的および生成的パラダイムの下で訓練された同一音声強調バックボーンの性能を,様々な指標で評価し,侵入的および非侵入的尺度が各パラダイムに異なる相関性を示す。
この分析は、モデルのトレーニングプロセスに関係なく、音声強調性能の完全かつ偏りのない図を一緒に描くことができるメトリクスの探索を動機付ける。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Adversarial Representation Learning for Robust Privacy Preservation in
Audio [11.409577482625053]
音響イベント検出システムは、ユーザーまたはその周辺に関する機密情報を不注意に明らかにすることができる。
本稿では,音声記録の表現を学習するための新しい逆学習法を提案する。
提案手法は,プライバシ対策を伴わないベースライン手法と,事前の逆行訓練法とを併用して評価する。
論文 参考訳(メタデータ) (2023-04-29T08:39:55Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Perceive and predict: self-supervised speech representation based loss
functions for speech enhancement [23.974815078687445]
クリーンな音声とノイズの多い音声の特徴符号化の距離は、心理音響的動機付けによる音声品質と聞きやすさの尺度と強く相関している。
損失関数としてこの距離を用いた実験を行い、STFTスペクトル距離に基づく損失よりも性能を向上した。
論文 参考訳(メタデータ) (2023-01-11T10:20:56Z) - On the robustness of non-intrusive speech quality model by adversarial
examples [10.985001960872264]
音声品質予測器は, 敵対的摂動に対して脆弱であることを示す。
さらに、モデルの堅牢性を高めるための対人訓練の可能性を探求し、確認する。
論文 参考訳(メタデータ) (2022-11-11T23:06:24Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Improving Distortion Robustness of Self-supervised Speech Processing
Tasks with Domain Adaptation [60.26511271597065]
音声歪みは、視覚的に訓練された音声処理モデルの性能を劣化させる長年の問題である。
音声処理モデルのロバスト性を向上して、音声歪みに遭遇する際の良好な性能を得るには、時間を要する。
論文 参考訳(メタデータ) (2022-03-30T07:25:52Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。