論文の概要: Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation
- arxiv url: http://arxiv.org/abs/2601.21386v1
- Date: Thu, 29 Jan 2026 08:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.667394
- Title: Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation
- Title(参考訳): 合成音声品質評価のためのフレシェ音声距離の理解
- Authors: June-Woo Kim, Dhruv Agarwal, Federica Cerina,
- Abstract要約: FSD(Frechet Speech Distance)とSMMD(Speech Mean Discrepancy)を多種多様な埋め込み条件下で総合的に評価した。
FSDとSMMDは相補的・費用効率・再現性のある尺度であり,特に大規模・直接聴取評価が不可能な場合に有効であることを示す。
- 参考スコア(独自算出の注目度): 3.549112490210998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective evaluation of synthetic speech quality remains a critical challenge. Human listening tests are the gold standard, but costly and impractical at scale. Fréchet Distance has emerged as a promising alternative, yet its reliability depends heavily on the choice of embeddings and experimental settings. In this work, we comprehensively evaluate Fréchet Speech Distance (FSD) and its variant Speech Maximum Mean Discrepancy (SMMD) under varied embeddings and conditions. We further incorporate human listening evaluations alongside TTS intelligibility and synthetic-trained ASR WER to validate the perceptual relevance of these metrics. Our findings show that WavLM Base+ features yield the most stable alignment with human ratings. While FSD and SMMD cannot fully replace subjective evaluation, we show that they can serve as complementary, cost-efficient, and reproducible measures, particularly useful when large-scale or direct listening assessments are infeasible. Code is available at https://github.com/kaen2891/FrechetSpeechDistance.
- Abstract(参考訳): 合成音声品質の客観的評価は依然として重要な課題である。
人間の聞き取りテストは金の標準だが、大規模には費用がかかり、実用的ではない。
Fréchet Distanceは有望な代替手段として登場したが、その信頼性は埋め込みと実験的な設定の選択に大きく依存している。
本研究では,Fréchet Speech Distance (FSD) とその変種であるSmallimum Mean Discrepancy (SMMD) を,様々な埋め込みや条件下で総合的に評価する。
さらに、これらの指標の知覚的妥当性を検証するために、TTSインテリジェンスと合成訓練されたASR WERとともに、人間の聴取評価を取り入れた。
We found that WavLM Base+ features yield the most stable alignment with human ratings。
FSDとSMMDは主観評価を完全に置き換えることはできないが、特に大規模・直接聴取評価が不可能な場合に、補完的・費用効率・再現性のある尺度として機能することを示す。
コードはhttps://github.com/kaen2891/FrechetSpeechDistanceで入手できる。
関連論文リスト
- SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文 参考訳(メタデータ) (2025-09-21T14:11:16Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation [12.954531089716008]
MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。
人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。
MUSHRAテストの2つの改良版を提案する。
論文 参考訳(メタデータ) (2024-11-19T18:37:45Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文 参考訳(メタデータ) (2024-06-02T07:54:33Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。