論文の概要: SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
- arxiv url: http://arxiv.org/abs/2511.07931v1
- Date: Wed, 12 Nov 2025 01:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.552744
- Title: SpeechJudge: Towards Human-Level Judgment for Speech Naturalness
- Title(参考訳): SpeechJudge: 音声自然性に対する人間レベル判断に向けて
- Authors: Xueyao Zhang, Chaoren Wang, Huan Liao, Ziniu Li, Yuancheng Wang, Li Wang, Dongya Jia, Yuanzhe Chen, Xiulin Li, Zhuo Chen, Zhizheng Wu,
- Abstract要約: SpeechJudgeはデータセット、ベンチマーク、報酬モデルで構成されるスイートである。
99K音声対の大規模フィードバックコーパスであるSpeechJudge-Dataを提案する。
SpeechJudge-Evalは、自然言語の自然性判定のための挑戦的なベンチマークである。
我々はQwen2.5-Omni-7Bに基づく生成報酬モデルであるSpeechJudge-GRMを開発した。
- 参考スコア(独自算出の注目度): 25.566620976752443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aligning large generative models with human feedback is a critical challenge. In speech synthesis, this is particularly pronounced due to the lack of a large-scale human preference dataset, which hinders the development of models that truly align with human perception. To address this, we introduce SpeechJudge, a comprehensive suite comprising a dataset, a benchmark, and a reward model centered on naturalness--one of the most fundamental subjective metrics for speech synthesis. First, we present SpeechJudge-Data, a large-scale human feedback corpus of 99K speech pairs. The dataset is constructed using a diverse set of advanced zero-shot text-to-speech (TTS) models across diverse speech styles and multiple languages, with human annotations for both intelligibility and naturalness preference. From this, we establish SpeechJudge-Eval, a challenging benchmark for speech naturalness judgment. Our evaluation reveals that existing metrics and AudioLLMs struggle with this task; the leading model, Gemini-2.5-Flash, achieves less than 70% agreement with human judgment, highlighting a significant gap for improvement. To bridge this gap, we develop SpeechJudge-GRM, a generative reward model (GRM) based on Qwen2.5-Omni-7B. It is trained on SpeechJudge-Data via a two-stage post-training process: Supervised Fine-Tuning (SFT) with Chain-of-Thought rationales followed by Reinforcement Learning (RL) with GRPO on challenging cases. On the SpeechJudge-Eval benchmark, the proposed SpeechJudge-GRM demonstrates superior performance, achieving 77.2% accuracy (and 79.4% after inference-time scaling @10) compared to a classic Bradley-Terry reward model (72.7%). Furthermore, SpeechJudge-GRM can be also employed as a reward function during the post-training of speech generation models to facilitate their alignment with human preferences.
- Abstract(参考訳): 大規模な生成モデルを人間のフィードバックで調整することは、重要な課題である。
音声合成において、これは特に、人間の知覚と真に整合するモデルの開発を妨げる大規模な人間の嗜好データセットが欠如していることから顕著である。
そこで本研究では,データセット,ベンチマーク,自然度を中心とした報酬モデルからなる包括的スイートであるSpeechJudgeを紹介した。
まず,99K対の大規模フィードバックコーパスであるSpeechJudge-Dataを提案する。
データセットは、多様な音声スタイルと複数の言語にまたがる高度なゼロショットテキスト音声(TTS)モデルの多種多様なセットを使用して構築され、人間のアノテーションは、インテリジェンスと自然性の両方を優先する。
そこで我々は,音声自然性判定のための挑戦的ベンチマークであるSpeechJudge-Evalを確立する。
先行モデルであるGemini-2.5-Flashは、人間の判断と70%未満の一致を達成し、改善のための大きなギャップを浮き彫りにしています。
このギャップを埋めるために,Qwen2.5-Omni-7Bに基づく生成報酬モデル(GRM)であるSpeechJudge-GRMを開発した。
教師付き微調整(SFT: Supervised Fine-Tuning)と図式合理化(Chain-of-Thought rationales)、強化学習(Reinforcement Learning、RL:Reinforcement Learning)とGRPO(GRPO:Reinforcement Learning、強化学習)である。
SpeechJudge-Evalベンチマークでは、提案されたSpeechJudge-GRMは、古典的なBradley-Terry報酬モデル(72.7%)と比較して、77.2%の精度(および推論時間スケーリング@10以降の79.4%)で優れたパフォーマンスを示している。
さらに、音声生成モデルの訓練後における報酬関数としてSpeechJudge-GRMを用いることで、人間の嗜好との整合性を高めることができる。
関連論文リスト
- Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy [26.455112415445146]
我々はSkywork-Reward-V2という,0.6Bから8Bパラメータの8つの報酬モデルスイートを紹介し,SynPref-40Mから600万の選好ペアのサブセットをトレーニングした。
我々は、Skywork-Reward-V2が、人間の嗜好、客観的な正しさ、安全性、スタイリスティックなバイアスへの抵抗、Nのベスト・オブ・スケーリングなど、幅広い能力にまたがる汎用性を実証した。
論文 参考訳(メタデータ) (2025-07-02T04:40:29Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - The DiffuseStyleGesture+ entry to the GENEA Challenge 2023 [16.297790031478634]
DiffuseStyleGesture+は,非言語行動の生成と評価のためのソリューションである。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
論文 参考訳(メタデータ) (2023-08-26T13:34:17Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。