論文の概要: Neural networks for Text-to-Speech evaluation
- arxiv url: http://arxiv.org/abs/2604.08562v1
- Date: Tue, 17 Mar 2026 16:07:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.419036
- Title: Neural networks for Text-to-Speech evaluation
- Title(参考訳): テキスト音声評価のためのニューラルネットワーク
- Authors: Ilya Trofimenko, David Kocharyan, Aleksandr Zaitsev, Pavel Repnikov, Mark Levin, Nikita Shevtsov,
- Abstract要約: 音声合成システムは、人間の知覚された品質を大規模に提供する必要がある。
Mean Opinion Score (MOS) や Side-by-Side (SBS) のような人間の主観評価プロトコルは、事実上のゴールド標準のままである。
本研究では、これらの障壁を定式化し、新しいニューラルモデルスイートを実装して解決する。
- 参考スコア(独自算出の注目度): 35.277885003866466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring that Text-to-Speech (TTS) systems deliver human-perceived quality at scale is a central challenge for modern speech technologies. Human subjective evaluation protocols such as Mean Opinion Score (MOS) and Side-by-Side (SBS) comparisons remain the de facto gold standards, yet they are expensive, slow, and sensitive to pervasive assessor biases. This study addresses these barriers by formulating, and implementing a suite of novel neural models designed to approximate expert judgments in both relative (SBS) and absolute (MOS) settings. For relative assessment, we propose NeuralSBS, a HuBERT-backed model achieving 73.7% accuracy (on SOMOS dataset). For absolute assessment, we introduce enhancements to MOSNet using custom sequence-length batching, as well as WhisperBert, a multimodal stacking ensemble that combines Whisper audio features and BERT textual embeddings via weak learners. Our best MOS models achieve a Root Mean Square Error (RMSE) of ~0.40, significantly outperforming the human inter-rater RMSE baseline of 0.62. Furthermore, our ablation studies reveal that naively fusing text via cross-attention can degrade performance, highlighting the effectiveness of ensemble-based stacking over direct latent fusion. We additionally report negative results with SpeechLM-based architectures and zero-shot LLM evaluators (Qwen2-Audio, Gemini 2.5 flash preview), reinforcing the necessity of dedicated metric learning frameworks.
- Abstract(参考訳): テキスト音声合成システム(TTS)が人間の知覚的品質を大規模に提供することは、現代の音声技術にとって重要な課題である。
Mean Opinion Score (MOS) や Side-by-Side (SBS) のような人間の主観評価プロトコルは事実上のゴールド標準のままだが、高価で遅く、広範に評価されるバイアスに敏感である。
本研究では、これらの障壁を定式化し、相対的(SBS)と絶対的(MOS)の両方の設定で専門家の判断を近似するように設計された、新しいニューラルネットワークのスイートを実装して解決する。
相対評価のために,HuBERTが支援するモデルであるNeuralSBSを提案し,73.7%の精度(SOMOSデータセット)を達成した。
絶対的な評価のために、カスタムシーケンス長バッチによるMOSNetの拡張と、Whisperオーディオ機能と弱い学習者によるBERTテキスト埋め込みを組み合わせたマルチモーダル・スタックングアンサンブルであるWhisperBertを導入する。
我々の最高のMOSモデルでは、Root Mean Square Error (RMSE) は ~0.40 であり、人間同士のRMSEベースラインである 0.62 を著しく上回っている。
さらに,我々のアブレーション研究は,クロスアテンションによる自然な融合によるテキストの劣化が,直接潜伏核融合に対するアンサンブルベースの積み重ねの有効性を浮き彫りにすることを示した。
また、SpeechLMベースのアーキテクチャとゼロショットLCM評価器(Qwen2-Audio, Gemini 2.5フラッシュプレビュー)によるネガティブな結果を報告する。
関連論文リスト
- Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction [1.3511057160494195]
リーダー-フォロワー相互作用は人間-ロボット相互作用(HRI)において重要なパラダイムである
小言語モデル(SLM)は潜在的な代替手段を提供するが、HRIにおける役割分類の有効性は体系的に評価されていない。
論文 参考訳(メタデータ) (2026-02-26T18:20:26Z) - SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality [2.1178416840822027]
音声品質評価は電話、VoIP、ストリーミングシステムの中心であり、大量の劣化したオーディオを大規模に監視し、最適化する必要がある。
本稿では,音声エンコーダを言語モデルに結合し,テンプレートベースの質問応答ペアを用いてNISQAコーパスで学習するマルチモーダル音声品質質問応答システムであるSpeechQualityLLMを紹介する。
本システムでは,数値予測を解析し,標準回帰とランキングの指標を用いて評価するテキスト回答を生成する。
論文 参考訳(メタデータ) (2025-12-09T04:39:50Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - CCATMos: Convolutional Context-aware Transformer Network for
Non-intrusive Speech Quality Assessment [12.497279501767606]
本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。
我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
論文 参考訳(メタデータ) (2022-11-04T16:46:11Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。