論文の概要: LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech
- arxiv url: http://arxiv.org/abs/2110.09103v1
- Date: Mon, 18 Oct 2021 08:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 04:11:36.568794
- Title: LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech
- Title(参考訳): LDNet:合成音声のMOS予測における統一リスナー依存モデル
- Authors: Wen-Chin Huang, Erica Cooper, Junichi Yamagishi, Tomoki Toda
- Abstract要約: 本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
- 参考スコア(独自算出の注目度): 67.88748572167309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An effective approach to automatically predict the subjective rating for
synthetic speech is to train on a listening test dataset with human-annotated
scores. Although each speech sample in the dataset is rated by several
listeners, most previous works only used the mean score as the training target.
In this work, we present LDNet, a unified framework for mean opinion score
(MOS) prediction that predicts the listener-wise perceived quality given the
input speech and the listener identity. We reflect recent advances in LD
modeling, including design choices of the model architecture, and propose two
inference methods that provide more stable results and efficient computation.
We conduct systematic experiments on the voice conversion challenge (VCC) 2018
benchmark and a newly collected large-scale MOS dataset, providing an in-depth
analysis of the proposed framework. Results show that the mean listener
inference method is a better way to utilize the mean scores, whose
effectiveness is more obvious when having more ratings per sample.
- Abstract(参考訳): 合成音声の主観評価を自動的に予測する効果的なアプローチは、人間の注釈付きスコアでリスニングテストデータセットでトレーニングすることだ。
データセット内の各音声サンプルは、複数のリスナーによって評価されるが、以前のほとんどの研究では、平均スコアのみをトレーニングターゲットとして使用していた。
本研究では,入力音声と聴取者の同一性から,聞き手が知覚する品質を予測する,平均評価スコア(MOS)予測のための統合フレームワークLDNetを提案する。
我々は、モデルアーキテクチャの設計選択を含む最近のLDモデリングの進歩を反映し、より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
我々は,音声変換チャレンジ(VCC)2018ベンチマークと,新たに収集した大規模MOSデータセットの体系的な実験を行い,提案フレームワークの詳細な分析を行った。
その結果, 平均聴取者推定法は, 平均聴取者推定法よりも有効であることが示唆された。
関連論文リスト
- Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - A Suite for Acoustic Language Model Evaluation [20.802090523583196]
SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
論文 参考訳(メタデータ) (2024-09-11T17:34:52Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。