論文の概要: Evaluating generative audio systems and their metrics
- arxiv url: http://arxiv.org/abs/2209.00130v1
- Date: Wed, 31 Aug 2022 21:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:18:18.239888
- Title: Evaluating generative audio systems and their metrics
- Title(参考訳): 生成音響システムとそのメトリクスの評価
- Authors: Ashvala Vinay, Alexander Lerch
- Abstract要約: 本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
- 参考スコア(独自算出の注目度): 80.97828572629093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen considerable advances in audio synthesis with deep
generative models. However, the state-of-the-art is very difficult to quantify;
different studies often use different evaluation methodologies and different
metrics when reporting results, making a direct comparison to other systems
difficult if not impossible. Furthermore, the perceptual relevance and meaning
of the reported metrics in most cases unknown, prohibiting any conclusive
insights with respect to practical usability and audio quality. This paper
presents a study that investigates state-of-the-art approaches side-by-side
with (i) a set of previously proposed objective metrics for audio
reconstruction, and with (ii) a listening study. The results indicate that
currently used objective metrics are insufficient to describe the perceptual
quality of current systems.
- Abstract(参考訳): 近年、深層生成モデルによる音声合成が大幅に進歩している。
異なる研究は、結果を報告する際に異なる評価方法論と異なるメトリクスを使用し、他のシステムと直接比較することは不可能ではないとしても困難である。
さらに、報告された指標の知覚的関連性と意味は、ほとんどの場合不明であり、実用的なユーザビリティとオーディオ品質に関する決定的な洞察を禁止している。
本稿では,最先端のアプローチを並べて検討する。
(i)従来提案されていた音声再建のための客観的指標のセット
(二)聴取の勉強。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示された。
関連論文リスト
- Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。
本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:35:41Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - What You Hear Is What You See: Audio Quality Metrics From Image Quality
Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。
我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。
提案手法の有効性を音楽データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-19T10:43:57Z) - In Search of Insights, Not Magic Bullets: Towards Demystification of the
Model Selection Dilemma in Heterogeneous Treatment Effect Estimation [92.51773744318119]
本稿では,異なるモデル選択基準の長所と短所を実験的に検討する。
選択戦略,候補推定器,比較に用いるデータの間には,複雑な相互作用があることを強調した。
論文 参考訳(メタデータ) (2023-02-06T16:55:37Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - A Comparative Study of Faithfulness Metrics for Model Interpretability
Methods [3.7200349581269996]
診断性と時間的複雑さという2つの評価次元を導入する。
実験結果によると, 充足度と包括度は, 他の忠実度よりも診断性が高く, 時間的複雑さも低いことがわかった。
論文 参考訳(メタデータ) (2022-04-12T04:02:17Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。