論文の概要: MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data
- arxiv url: http://arxiv.org/abs/2203.12369v2
- Date: Thu, 24 Mar 2022 10:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 11:32:07.431866
- Title: MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data
- Title(参考訳): MetricGAN+/-:未確認データにおけるノイズ低減のロバスト化
- Authors: George Close, Thomas Hain and Stefan Goetze
- Abstract要約: 予測ネットワークのロバスト性を改善する「デジェネレータ」を提案する。
VoiceBank-DEMANDデータセットの実験結果は、PSSQスコアが3.8%相対的に改善したことを示している。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training of speech enhancement systems often does not incorporate knowledge
of human perception and thus can lead to unnatural sounding results.
Incorporating psychoacoustically motivated speech perception metrics as part of
model training via a predictor network has recently gained interest. However,
the performance of such predictors is limited by the distribution of metric
scores that appear in the training data. In this work, we propose MetricGAN+/-
(an extension of MetricGAN+, one such metric-motivated system) which introduces
an additional network - a "de-generator" which attempts to improve the
robustness of the prediction network (and by extension of the generator) by
ensuring observation of a wider range of metric scores in training.
Experimental results on the VoiceBank-DEMAND dataset show relative improvement
in PESQ score of 3.8% (3.05 vs 3.22 PESQ score), as well as better
generalisation to unseen noise and speech.
- Abstract(参考訳): 音声強調システムの訓練は、しばしば人間の知覚に関する知識を含まないため、不自然な発音結果につながる可能性がある。
予測ネットワークを用いたモデルトレーニングの一環として,心理音響的動機づけによる音声知覚指標が最近注目されている。
しかしながら、これらの予測器の性能は、トレーニングデータに現れるメトリックスコアの分布によって制限される。
本研究では,追加のネットワーク - 予測ネットワークのロバスト性向上(および生成器の拡張による)を試み,より広い範囲のメートル法スコアの観測を可能にした「デジェネレータ (de-generator)」を提案する。
VoiceBank-DEMANDデータセットの実験結果によると、PSSQのスコアは3.8%(3.05対3.22 PESQ)で相対的に改善され、ノイズや音声が見えないように一般化された。
関連論文リスト
- Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata [28.260347585185176]
本稿では,知能予測精度を向上させるための3つの新しい手法を提案する。
MBI-Net+は、第1回Clarity Prediction Challengeの最高パフォーマンスシステムであるMBI-Netの拡張版である。
論文 参考訳(メタデータ) (2023-09-18T07:51:09Z) - Collaborative Learning with a Drone Orchestrator [79.75113006257872]
インテリジェントな無線デバイス群は、ドローンの助けを借りて共有ニューラルネットワークモデルを訓練する。
提案したフレームワークは,トレーニングの大幅な高速化を実現し,ドローンホバリング時間の平均24%と87%の削減を実現している。
論文 参考訳(メタデータ) (2023-03-03T23:46:25Z) - Metric-oriented Speech Enhancement using Diffusion Probabilistic Model [23.84172431047342]
ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T13:12:35Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement [37.3251779254894]
音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。
これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
論文 参考訳(メタデータ) (2021-04-08T06:46:35Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。