論文の概要: Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regression to Service Graphs
- arxiv url: http://arxiv.org/abs/2512.04827v1
- Date: Thu, 04 Dec 2025 14:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.206374
- Title: Contract-Driven QoE Auditing for Speech and Singing Services: From MOS Regression to Service Graphs
- Title(参考訳): 音声・歌唱サービスのための契約駆動型QoE監査:MOS回帰からサービスグラフへ
- Authors: Wenzhang Du,
- Abstract要約: 契約駆動型QoE監査フレームワークを提案する。
URGENT2024 MOS と SingMOS v1 (7,981 歌唱クリップ,80 システム) のフレームワークをインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subjective mean opinion scores (MOS) remain the de-facto target for non-intrusive speech and singing quality assessment. However, MOS is a scalar that collapses heterogeneous user expectations, ignores service-level objectives, and is difficult to compare across deployment graphs. We propose a contract-driven QoE auditing framework: each service graph G is evaluated under a set of human-interpretable experience contracts C, yielding a contract-level satisfaction vector Q(G, C). We show that (i) classical MOS regression is a special case with a degenerate contract set, (ii) contract-driven quality is more stable than MOS under graph view transformations (e.g., pooling by system vs. by system type), and (iii) the effective sample complexity of learning contracts is governed by contract semantics rather than merely the dimensionality of C. We instantiate the framework on URGENT2024 MOS (6.9k speech utterances with raw rating vectors) and SingMOS v1 (7,981 singing clips; 80 systems). On URGENT, we train a contract-aware neural auditor on self-supervised WavLM embeddings; on SingMOS, we perform contract-driven graph auditing using released rating vectors and metadata without decoding audio. Empirically, our auditor matches strong MOS predictors in MOS accuracy while providing calibrated contract probabilities; on SingMOS, Q(G, C) exhibits substantially smaller cross-view drift than raw MOS and graph-only baselines; on URGENT, difficulty curves reveal that mis-specified "simple" contracts can be harder to learn than richer but better aligned contract sets.
- Abstract(参考訳): 主観的平均世論スコア(MOS)は、非侵入的発話と歌声質評価のデファクトターゲットのままである。
しかし、MOSはヘテロジニアスなユーザ期待を崩壊させ、サービスレベルの目的を無視し、デプロイグラフ全体を比較するのが難しいスカラーである。
本稿では,契約駆動型QoE監査フレームワークを提案する。各サービスグラフGは,人間の解釈可能なエクスペリエンスコントラクトCのセットに基づいて評価され,契約レベルの満足度ベクトルQ(G,C)が生成される。
私たちはそれを示します
(i)古典的MOS回帰は縮退した契約セットを持つ特別な場合である。
(II)契約駆動品質は、グラフビュー変換の下でのMOSよりも安定している(例えば、システムによるプールとシステムタイプによるプール)。
URGENT2024 MOS(6.9k)とSingMOS v1(7,981曲の歌声クリップ,80システム)の枠組みをインスタンス化する。
URGENTでは,自己教師型WavLM埋め込みによる契約認識型ニューラル監査をトレーニングし,SingMOSでは,音声を復号することなく,リリースされた評価ベクトルとメタデータを用いて契約駆動型グラフ監査を行う。
SingMOSでは、Q(G, C) は生の MOS やグラフのみのベースラインよりも横方向のドリフトが著しく小さく、URGENT では、誤特定された「単純な」契約は、よりリッチで整列した契約セットよりも学習が難しいことが判明した。
関連論文リスト
- SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment [52.656281676548645]
自動歌唱品質評価のためのデータセットであるSingMOS-Proを紹介する。
SingMOS-Proは、追加部分のアノテーションを拡張して、歌詞、メロディ、全体的な品質を含む。
データセットには、12データセットにわたる41のモデルによって生成された7,981の歌声クリップが含まれている。
論文 参考訳(メタデータ) (2025-10-02T08:53:49Z) - From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling [66.22134521383909]
我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。
MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-01T10:27:51Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Learning with Noisy Low-Cost MOS for Image Quality Assessment via
Dual-Bias Calibration [20.671990508960906]
個々のアノテータの主観的バイアスを考慮すると、労働基準平均アノテータスコア(LA-MOS)は、通常、画像ごとに複数のアノテータから多数のアノテータのアノテータのアノテータのアノテータのアノテータスコアを収集する必要がある。
本稿では,低コストのMOSから頑健なIQAモデルを学習することを目的としている。
我々の知る限りでは、これはノイズの多い低コストラベルからの堅牢なIQAモデル学習の最初の調査である。
論文 参考訳(メタデータ) (2023-11-27T14:11:54Z) - MOSPC: MOS Prediction Based on Pairwise Comparison [32.55704173124071]
MOS(Mean opinion score)は、合成音声の品質を評価する主観的尺度である。
ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案する。
筆者らのフレームワークは,各きめ細かなセグメントのランキング精度において,強いベースラインを超えている。
論文 参考訳(メタデータ) (2023-06-18T07:38:17Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。