論文の概要: DNSMOS: A Non-Intrusive Perceptual Objective Speech Quality metric to
evaluate Noise Suppressors
- arxiv url: http://arxiv.org/abs/2010.15258v2
- Date: Wed, 10 Feb 2021 22:37:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 06:39:04.819579
- Title: DNSMOS: A Non-Intrusive Perceptual Objective Speech Quality metric to
evaluate Noise Suppressors
- Title(参考訳): DNSMOS:ノイズ抑圧器評価のための非侵入的知覚的音声品質尺度
- Authors: Chandan K A Reddy, Vishak Gopal, Ross Cutler
- Abstract要約: 本稿では,多段階の自己学習に基づく知覚的客観的尺度を導入し,雑音抑制器の評価を行う。
提案手法は,人間の評価と高い相関性を有する挑戦的な試験条件においてよく一般化する。
- 参考スコア(独自算出の注目度): 15.209645076557054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human subjective evaluation is the gold standard to evaluate speech quality
optimized for human perception. Perceptual objective metrics serve as a proxy
for subjective scores. The conventional and widely used metrics require a
reference clean speech signal, which is unavailable in real recordings. The
no-reference approaches correlate poorly with human ratings and are not widely
adopted in the research community. One of the biggest use cases of these
perceptual objective metrics is to evaluate noise suppression algorithms. This
paper introduces a multi-stage self-teaching based perceptual objective metric
that is designed to evaluate noise suppressors. The proposed method generalizes
well in challenging test conditions with a high correlation to human ratings.
- Abstract(参考訳): 人間の主観評価は、人間の知覚に最適化された音声品質を評価するための金の基準である。
知覚的客観的指標は主観的スコアの指標として機能する。
従来かつ広く使用されているメトリクスは、実際の録音では利用できない参照クリーン音声信号を必要とする。
非参照アプローチは人間の評価と相関が低く、研究コミュニティでは広く採用されていない。
これらの知覚的客観的指標の最大のユースケースの1つは、ノイズ抑制アルゴリズムを評価することである。
本稿では,ノイズ抑圧器の評価を目的とした多段階自己学習に基づく知覚客観的尺度を提案する。
提案手法は,人間の評価と高い相関関係を持つ難易度テスト条件においてよく一般化する。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Objective and subjective evaluation of speech enhancement methods in the UDASE task of the 7th CHiME challenge [19.810337081901178]
クリーン音声とノイズ信号の混合を人工的に生成し,音声強調のための教師付きモデルを訓練する。
この相違は、テストドメインが合成トレーニングドメインと大きく異なる場合、性能が低下する可能性がある。
第7回CiMEチャレンジのUDASEタスクは、テスト領域からの現実的なノイズの多い音声記録を活用することを目的としている。
論文 参考訳(メタデータ) (2024-02-02T13:45:42Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Benchmarking Evaluation Metrics for Code-Switching Automatic Speech
Recognition [19.763431520942028]
本研究では,人間の判断によるコードスイッチング音声認識仮説のベンチマークデータセットを開発する。
自動仮説の最小化のための明確なガイドラインを定義する。
我々は、アラビア語/英語の方言音声におけるコードスイッチング音声認識結果の人間受容のための最初のコーパスをリリースする。
論文 参考訳(メタデータ) (2022-11-22T08:14:07Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。