論文の概要: CDPAM: Contrastive learning for perceptual audio similarity
- arxiv url: http://arxiv.org/abs/2102.05109v1
- Date: Tue, 9 Feb 2021 20:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 02:10:39.974505
- Title: CDPAM: Contrastive learning for perceptual audio similarity
- Title(参考訳): CDPAM: 知覚音声類似性のためのコントラスト学習
- Authors: Pranay Manocha, Zeyu Jin, Richard Zhang, Adam Finkelstein
- Abstract要約: 本稿ではDPAMをベースとしたCDPAMを紹介する。
より広い範囲の音声摂動に対する一般化を改善するために,三重項比較に関する人間の判断を収集する。
CDPAMは、9つの異なるデータセットにわたる人間の反応とよく相関する。
- 参考スコア(独自算出の注目度): 33.60921949631496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many speech processing methods based on deep learning require an automatic
and differentiable audio metric for the loss function. The DPAM approach of
Manocha et al. learns a full-reference metric trained directly on human
judgments, and thus correlates well with human perception. However, it requires
a large number of human annotations and does not generalize well outside the
range of perturbations on which it was trained. This paper introduces CDPAM, a
metric that builds on and advances DPAM. The primary improvement is to combine
contrastive learning and multi-dimensional representations to build robust
models from limited data. In addition, we collect human judgments on triplet
comparisons to improve generalization to a broader range of audio
perturbations. CDPAM correlates well with human responses across nine varied
datasets. We also show that adding this metric to existing speech synthesis and
enhancement methods yields significant improvement, as measured by objective
and subjective tests.
- Abstract(参考訳): 深層学習に基づく多くの音声処理方法は、損失関数のための自動および微分可能な音声メトリックを必要とする。
Manocha et al.のDPAMアプローチ。
人間の判断に直接訓練されたフルリファレンスメトリックを学習し、人間の知覚とうまく相関します。
しかし、多くの人間の注釈が必要であり、訓練された摂動の範囲外ではうまく一般化していない。
本稿では,DPAM上に構築・発展する指標であるCDPAMについて紹介する。
主な改善点は、対照的な学習と多次元表現を組み合わせて、限られたデータから堅牢なモデルを構築することである。
さらに,三重項比較に関する人間の判断を収集し,より広い範囲の音声摂動に対する一般化を改善する。
CDPAMは9つのさまざまなデータセットの人間の応答とよく相関します。
また,この指標を既存の音声合成・強調法に付加すると,客観的・主観的評価で測定したように,大幅に改善することが示された。
関連論文リスト
- DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization [12.310318928818546]
そこで本研究では, 直接的エンドツーエンド評価を用いたTS拡散モデルの蒸留法を提案する。
DMDSpeechは、自然性と話者類似性の両方において、従来の最先端モデルより一貫して上回っていることを示す。
この研究は、音声合成における直接メートル法最適化の可能性を強調し、モデルが人間の聴覚的嗜好とよりよく一致できるようにする。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - On the Behavior of Intrusive and Non-intrusive Speech Enhancement
Metrics in Predictive and Generative Settings [14.734454356396157]
予測的および生成的パラダイムの下で訓練された同じ音声強調バックボーンの性能を評価する。
侵入的・非侵入的尺度は各パラダイムごとに異なる相関関係を示す。
論文 参考訳(メタデータ) (2023-06-05T16:30:17Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Multi-level Distance Regularization for Deep Metric Learning [20.178765779788492]
MDR(Multi-level Distance Regularization)と呼ばれる深度学習のための距離に基づく新しい正規化手法を提案する。
MDRは、埋め込みベクトル間のペアワイズ距離を複数のレベルに調整することで、学習手順を明示的に妨害する。
我々のMDRを簡単に採用することで、従来のアプローチは性能と一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2021-02-08T14:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。