論文の概要: Predicting pairwise preferences between TTS audio stimuli using parallel
ratings data and anti-symmetric twin neural networks
- arxiv url: http://arxiv.org/abs/2209.11003v1
- Date: Thu, 22 Sep 2022 13:34:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:19:49.504302
- Title: Predicting pairwise preferences between TTS audio stimuli using parallel
ratings data and anti-symmetric twin neural networks
- Title(参考訳): 並列レーティングデータと反対称ツインニューラルネットワークを用いたTS音声刺激のペアワイズ選好予測
- Authors: Cassia Valentini-Botinhao, Manuel Sam Ribeiro, Oliver Watts, Korin
Richmond, Gustav Eje Henter
- Abstract要約: 本稿では, 対の波形とそれに対応する選好スコアに基づいて学習した, 反対称双対ニューラルネットワークに基づくモデルを提案する。
大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。
MOSスコアの予測を訓練した最先端モデルと比較した。
- 参考スコア(独自算出の注目度): 24.331098975217596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically predicting the outcome of subjective listening tests is a
challenging task. Ratings may vary from person to person even if preferences
are consistent across listeners. While previous work has focused on predicting
listeners' ratings (mean opinion scores) of individual stimuli, we focus on the
simpler task of predicting subjective preference given two speech stimuli for
the same text. We propose a model based on anti-symmetric twin neural networks,
trained on pairs of waveforms and their corresponding preference scores. We
explore both attention and recurrent neural nets to account for the fact that
stimuli in a pair are not time aligned. To obtain a large training set we
convert listeners' ratings from MUSHRA tests to values that reflect how often
one stimulus in the pair was rated higher than the other. Specifically, we
evaluate performance on data obtained from twelve MUSHRA evaluations conducted
over five years, containing different TTS systems, built from data of different
speakers. Our results compare favourably to a state-of-the-art model trained to
predict MOS scores.
- Abstract(参考訳): 主観的聴力テストの結果を自動的に予測することは難しい課題である。
好みが聞き手間で一致していても、評価は人によって異なる場合がある。
先行研究は、個々の刺激に対する聞き手の評価(意見スコア)の予測に重点を置いてきたが、同一テキストに対して2つの音声刺激を与えられた主観的嗜好の予測をより簡単なタスクに焦点をあてている。
本稿では、対対称双対ニューラルネットワークに基づくモデルを提案し、波形のペアとそれに対応する選好スコアに基づいて学習する。
注意と繰り返されるニューラルネットの両方を探索し、ペア内の刺激が時間的整合性がないという事実を考察する。
大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。
具体的には、異なる話者のデータから構築された異なるTSシステムを含む5年間のMUSHRA評価から得られたデータの性能を評価する。
MOSスコアの予測を訓練した最先端モデルと比較した。
関連論文リスト
- Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - The Performance Evaluation of Attention-Based Neural ASR under Mixed
Speech Input [1.776746672434207]
音声信号の混合を、リステン、アテンダント、スペル(LAS)として知られる、一般的な注目に基づくニューラルネットワークASRに提示する。
特に、予測音素とは何かという2つの音素がいつ混合されるのかを詳細に検討する。
実験の結果,混合音素信号が提示された場合,高い精度の音素を予測できる傾向が認められた。
論文 参考訳(メタデータ) (2021-08-03T02:08:22Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis [21.904558308567122]
本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
論文 参考訳(メタデータ) (2020-02-28T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。