論文の概要: MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2104.03538v1
- Date: Thu, 8 Apr 2021 06:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:55:14.614764
- Title: MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement
- Title(参考訳): MetricGAN+: 音声強調のためのMetricGANの改良版
- Authors: Szu-Wei Fu, Cheng Yu, Tsun-An Hsieh, Peter Plantinga, Mirco Ravanelli,
Xugang Lu, Yu Tsao
- Abstract要約: 音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。
これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
- 参考スコア(独自算出の注目度): 37.3251779254894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The discrepancy between the cost function used for training a speech
enhancement model and human auditory perception usually makes the quality of
enhanced speech unsatisfactory. Objective evaluation metrics which consider
human perception can hence serve as a bridge to reduce the gap. Our previously
proposed MetricGAN was designed to optimize objective metrics by connecting the
metric with a discriminator. Because only the scores of the target evaluation
functions are needed during training, the metrics can even be
non-differentiable. In this study, we propose a MetricGAN+ in which three
training techniques incorporating domain-knowledge of speech processing are
proposed. With these techniques, experimental results on the VoiceBank-DEMAND
dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the
previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).
- Abstract(参考訳): 音声強調モデルの訓練に用いられるコスト関数と人間の聴覚知覚との差は、通常、強調音声の品質を満足させることができない。
したがって、人間の知覚を考慮した客観的評価指標は、ギャップを減らすための橋渡しとなる可能性がある。
従来提案したMetricGANは,メトリックを識別器に接続することで,客観的なメトリクスを最適化するように設計されていた。
目標評価関数のスコアのみがトレーニング中に必要となるため、メトリクスは差別化できないこともある。
本研究では,音声処理のドメイン知識を組み込んだ3つの学習手法を提案する。
これらの手法を用いて、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPESQスコアを0.3増加させ、最先端の結果(PESQスコア=3.15)を達成できることが示された。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement [17.516851319183555]
本稿では,広く使用されているPSSQ尺度を利用した拡張モデルを提案する。
得られた3.82のPSSQ値は、VB-DMDベンチマークで「最先端」のPSSQ性能を示すが、我々の例では、計量をw.r.t.に最適化すると、同じ計量上で孤立した評価が誤解を招く可能性がある。
論文 参考訳(メタデータ) (2024-06-05T17:07:39Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - What You Hear Is What You See: Audio Quality Metrics From Image Quality
Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。
我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。
提案手法の有効性を音楽データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-19T10:43:57Z) - Metric-oriented Speech Enhancement using Diffusion Probabilistic Model [23.84172431047342]
ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T13:12:35Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data [26.94528951545861]
予測ネットワークのロバスト性を改善する「デジェネレータ」を提案する。
VoiceBank-DEMANDデータセットの実験結果は、PSSQスコアが3.8%相対的に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-23T12:42:28Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。