論文の概要: From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling
- arxiv url: http://arxiv.org/abs/2510.00743v1
- Date: Wed, 01 Oct 2025 10:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.516124
- Title: From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling
- Title(参考訳): スコアから選好へ:音声品質リワードモデリングのためのMOSベンチマークの再定義
- Authors: Yifei Cao, Changhao Jiang, Jiabao Zhuang, Jiajun Sun, Ming Zhang, Zhiheng Xi, Hui Li, Shihan Dou, Yuran Wang, Yunke Zhang, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。
MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
- 参考スコア(独自算出の注目度): 66.22134521383909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the perceptual quality of synthetic speech is crucial for guiding the development and refinement of speech generation models. However, it has traditionally relied on human subjective ratings such as the Mean Opinion Score (MOS), which depend on manual annotations and often suffer from inconsistent rating standards and poor reproducibility. To address these limitations, we introduce MOS-RMBench, a unified benchmark that reformulates diverse MOS datasets into a preference-comparison setting, enabling rigorous evaluation across different datasets. Building on MOS-RMBench, we systematically construct and evaluate three paradigms for reward modeling: scalar reward models, semi-scalar reward models, and generative reward models (GRMs). Our experiments reveal three key findings: (1) scalar models achieve the strongest overall performance, consistently exceeding 74% accuracy; (2) most models perform considerably worse on synthetic speech than on human speech; and (3) all models struggle on pairs with very small MOS differences. To improve performance on these challenging pairs, we propose a MOS-aware GRM that incorporates an MOS-difference-based reward function, enabling the model to adaptively scale rewards according to the difficulty of each sample pair. Experimental results show that the MOS-aware GRM significantly improves fine-grained quality discrimination and narrows the gap with scalar models on the most challenging cases. We hope this work will establish both a benchmark and a methodological framework to foster more rigorous and scalable research in automatic speech quality assessment.
- Abstract(参考訳): 合成音声の知覚品質を評価することは、音声生成モデルの開発と改良を導く上で重要である。
しかしながら、伝統的にそれは、手動のアノテーションに依存し、一貫性のない評価基準と再現性に悩まされる、平均オピニオンスコア(MOS)のような人間の主観的評価に依存してきた。
MOS-RMBenchは、様々なMOSデータセットを優先順位比較設定に再構成し、異なるデータセット間で厳密な評価を可能にする統合ベンチマークである。
MOS-RMBenchをベースとして,スカラー報酬モデル,半スカラー報酬モデル,生成報酬モデル(GRM)の3つのパラダイムを体系的に構築・評価した。
実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。
そこで本研究では,MOS-差分型報酬関数を組み込んだMOS-Aware GRMを提案し,各サンプルペアの難易度に応じてモデルが報酬を適応的にスケールできるようにする。
実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
自動音声品質評価において、より厳密でスケーラブルな研究を促進するために、この研究がベンチマークと方法論フレームワークの両方を確立することを願っている。
関連論文リスト
- Reward Model Interpretability via Optimal and Pessimal Tokens [4.951383975460995]
リワードモデリングは、大きな言語モデルと人間の価値を整合させる上で重要な要素として現れてきた。
本稿では,各語彙空間全体にわたる応答の包括的解析を通じて,報酬モデル解釈可能性に対する新たなアプローチを提案する。
これらのモデルは特定のアイデンティティグループに対するバイアスをエンコードすることができ、これは無害トレーニングの意図しない結果として現れる可能性がある。
論文 参考訳(メタデータ) (2025-06-08T23:56:58Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality [45.34252727738116]
平均オピニオンスコア(MOS)は、もはやマルチメディア品質評価モデルのための唯一の監督信号として不十分である。
品質評価を文脈的、説明可能、マルチモーダルなモデリングタスクとして再定義することで、より堅牢で、人間らしく、信頼性の高い評価システムへのシフトを触媒することを目指している。
論文 参考訳(メタデータ) (2025-05-26T08:52:02Z) - RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style [37.97757796124621]
RM-Benchは、微妙な内容の違いに対する感度とスタイルバイアスに対する耐性に基づいて報酬モデルを評価するために設計された新しいベンチマークである。
RM-Bench上で40近い報酬モデルを評価し,最先端モデルでさえ平均性能は46.6%に過ぎなかった。
論文 参考訳(メタデータ) (2024-10-21T16:48:26Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification [16.43844160498413]
MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
論文 参考訳(メタデータ) (2020-07-16T11:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。