論文の概要: GSRM: Generative Speech Reward Model for Speech RLHF
- arxiv url: http://arxiv.org/abs/2602.13891v1
- Date: Sat, 14 Feb 2026 21:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.544479
- Title: GSRM: Generative Speech Reward Model for Speech RLHF
- Title(参考訳): GSRM:音声RLHFのための生成音声リワードモデル
- Authors: Maohao Shen, Tejas Jayashankar, Osama Hanna, Naoyuki Kanda, Yancheng Wang, Kateřina Žmolíková, Ruiming Xie, Niko Moritz, Anfeng Xu, Yashesh Gaur, Gregory Wornell, Qing He, Jilong Wu,
- Abstract要約: Generative Speech Reward Model (GSRM) は、音声に合わせた推論中心の報酬モデルである。
GSRMは、音声の自然性評価を解釈可能な音響特徴抽出段階に分解するように訓練されている。
実験により、GSRMは既存の音声の自然性予測器よりもかなり優れていることが示された。
- 参考スコア(独自算出の注目度): 28.19230481779836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in speech language models, such as GPT-4o Voice Mode and Gemini Live, have demonstrated promising speech generation capabilities. Nevertheless, the aesthetic naturalness of the synthesized audio still lags behind that of human speech. Enhancing generation quality requires a reliable evaluator of speech naturalness. However, existing naturalness evaluators typically regress raw audio to scalar scores, offering limited interpretability of the evaluation and moreover fail to generalize to speech across different taxonomies. Inspired by recent advances in generative reward modeling, we propose the Generative Speech Reward Model (GSRM), a reasoning-centric reward model tailored for speech. The GSRM is trained to decompose speech naturalness evaluation into an interpretable acoustic feature extraction stage followed by feature-grounded chain-of-thought reasoning, enabling explainable judgments. To achieve this, we curated a large-scale human feedback dataset comprising 31k expert ratings and an out-of-domain benchmark of real-world user-assistant speech interactions. Experiments show that GSRM substantially outperforms existing speech naturalness predictors, achieving model-human correlation of naturalness score prediction that approaches human inter-rater consistency. We further show how GSRM can improve the naturalness of speech LLM generations by serving as an effective verifier for online RLHF.
- Abstract(参考訳): GPT-4o Voice Mode や Gemini Live など,近年の音声モデルの発展により,有望な音声生成能力が実証されている。
それでも、合成音声の美的自然性は、人間の音声のそれよりずっと遅れている。
生成品質を向上させるには、音声の自然性を評価する信頼性の高い評価器が必要である。
しかし、既存の自然性評価者は、通常、生音声をスカラースコアに回帰させ、評価の限定的な解釈可能性を提供し、さらに、異なる分類体系にわたるスピーチに一般化することができない。
近年のジェネレーティブ・リワード・モデリングの進歩に触発されて,音声に合わせた推論中心の報酬モデルであるジェネレーティブ・スピーチ・リワード・モデル(GSRM)を提案する。
GSRMは、音声の自然性評価を解釈可能な音響特徴抽出段階に分解し、その後、特徴基底の連鎖推論を行い、説明可能な判断を可能にするように訓練されている。
そこで我々は,31kの専門家評価と実世界のユーザ・アシスタント音声インタラクションのドメイン外ベンチマークからなる大規模フィードバックデータセットをキュレートした。
実験により、GSRMは既存の音声の自然性予測器よりも大幅に優れており、人間一貫性にアプローチする自然性スコア予測のモデルと人間の相関が達成されている。
さらに,オンラインRLHFの有効な検証方法として,GSRMが音声LLM生成の自然性を改善する方法を示す。
関連論文リスト
- Reward Modeling from Natural Language Human Feedback [77.75758630455357]
RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習が主流となっている。
本稿では,このような二項分類タスクにより,音質批判を伴わない正しい結果の推測が可能であることを実証する。
本稿では、自然言語フィードバックを利用してプロセス報酬信号を得る自然言語ヒューマンフィードバック(RM-NLHF)からのリワードモデリングを提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:43Z) - On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play [68.54773980519457]
Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
論文 参考訳(メタデータ) (2025-11-03T06:12:40Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。