論文の概要: The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2406.03460v1
- Date: Wed, 5 Jun 2024 17:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:02:29.844313
- Title: The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement
- Title(参考訳): PESQetarian:Goodhartの音声強調法との関連について
- Authors: Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann,
- Abstract要約: 本稿では,広く使用されているPSSQ尺度を利用した拡張モデルを提案する。
得られた3.82のPSSQ値は、VB-DMDベンチマークで「最先端」のPSSQ性能を示すが、我々の例では、計量をw.r.t.に最適化すると、同じ計量上で孤立した評価が誤解を招く可能性がある。
- 参考スコア(独自算出の注目度): 17.516851319183555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To obtain improved speech enhancement models, researchers often focus on increasing performance according to specific instrumental metrics. However, when the same metric is used in a loss function to optimize models, it may be detrimental to aspects that the given metric does not see. The goal of this paper is to illustrate the risk of overfitting a speech enhancement model to the metric used for evaluation. For this, we introduce enhancement models that exploit the widely used PESQ measure. Our "PESQetarian" model achieves 3.82 PESQ on VB-DMD while scoring very poorly in a listening experiment. While the obtained PESQ value of 3.82 would imply "state-of-the-art" PESQ-performance on the VB-DMD benchmark, our examples show that when optimizing w.r.t. a metric, an isolated evaluation on the same metric may be misleading. Instead, other metrics should be included in the evaluation and the resulting performance predictions should be confirmed by listening.
- Abstract(参考訳): 改良された音声強調モデルを得るために、研究者は特定の測定基準に従って、性能の向上に重点を置くことが多い。
しかし、損失関数において同じ計量がモデル最適化に使用される場合、与えられた計量が見ることができない側面に有害である可能性がある。
本研究の目的は,評価に用いられる指標に対して,音声強調モデルに過度に適合するリスクを説明することである。
そこで本研究では,広く使用されているPESQ尺度を利用した拡張モデルを提案する。
我々の「PESQetarian」モデルは、VB-DMD上で3.82 PESQを達成できるが、聴取実験では極めて低得点である。
得られた3.82のPSSQ値は、VB-DMDベンチマークで「最先端」のPSSQ性能を示すが、我々の例では、計量をw.r.t.に最適化すると、同じ計量上で孤立した評価が誤解を招く可能性がある。
代わりに、他のメトリクスを評価に含め、その結果のパフォーマンス予測をリスニングによって確認する必要があります。
関連論文リスト
- Beyond Exact Match: Semantically Reassessing Event Extraction by Large Language Models [69.38024658668887]
イベント抽出の現在の評価法はトークンレベルの正確な一致に依存している。
トークンレベルではなくセマンティックレベルでイベント抽出結果を正確に評価する自動評価フレームワークであるRAEEを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:54:01Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Characterizing and Measuring Linguistic Dataset Drift [65.28821163863665]
本稿では,語彙,構造,意味的ドリフトという3次元の言語データセットドリフトを提案する。
これらの次元は、内容語頻度の発散、統語的発散、および単語周波数で捉えない意味の変化に対応している。
ドリフトメトリクスは、ドメイン外モデルの精度を予測する上で、以前のメトリクスよりも効果的であることが分かりました。
論文 参考訳(メタデータ) (2023-05-26T17:50:51Z) - Hyperparameter Tuning and Model Evaluation in Causal Effect Estimation [2.7823528791601686]
本稿では,因果効果推定のためのモデル評価の4つの異なる側面間の相互作用について検討する。
ほとんどの因果推定器は、十分に調整された場合、ほぼ同等の性能であることがわかった。
我々は,現在,最先端の手順で提供されていない最適性能を解き放つために,因果モデル評価に関するさらなる研究を求めている。
論文 参考訳(メタデータ) (2023-03-02T17:03:02Z) - Metric-oriented Speech Enhancement using Diffusion Probabilistic Model [23.84172431047342]
ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T13:12:35Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - MetricGAN+/-: Increasing Robustness of Noise Reduction on Unseen Data [26.94528951545861]
予測ネットワークのロバスト性を改善する「デジェネレータ」を提案する。
VoiceBank-DEMANDデータセットの実験結果は、PSSQスコアが3.8%相対的に改善したことを示している。
論文 参考訳(メタデータ) (2022-03-23T12:42:28Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement [37.3251779254894]
音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。
これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
論文 参考訳(メタデータ) (2021-04-08T06:46:35Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。