論文の概要: Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification
- arxiv url: http://arxiv.org/abs/2007.08267v2
- Date: Wed, 2 Dec 2020 07:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 00:17:48.212439
- Title: Neural MOS Prediction for Synthesized Speech Using Multi-Task Learning
With Spoofing Detection and Spoofing Type Classification
- Title(参考訳): 発声検出と発声型分類を用いたマルチタスク学習による合成音声のニューラルMOS予測
- Authors: Yeunju Choi, Youngmoon Jung, Hoirin Kim
- Abstract要約: MOS予測モデルの性能向上のためのマルチタスク学習(MTL)手法を提案する。
Voice Conversion Challenge 2018を使った実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示されている。
- 参考スコア(独自算出の注目度): 16.43844160498413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several studies have proposed deep-learning-based models to predict the mean
opinion score (MOS) of synthesized speech, showing the possibility of replacing
human raters. However, inter- and intra-rater variability in MOSs makes it hard
to ensure the high performance of the models. In this paper, we propose a
multi-task learning (MTL) method to improve the performance of a MOS prediction
model using the following two auxiliary tasks: spoofing detection (SD) and
spoofing type classification (STC). Besides, we use the focal loss to maximize
the synergy between SD and STC for MOS prediction. Experiments using the MOS
evaluation results of the Voice Conversion Challenge 2018 show that proposed
MTL with two auxiliary tasks improves MOS prediction. Our proposed model
achieves up to 11.6% relative improvement in performance over the baseline
model.
- Abstract(参考訳): いくつかの研究は、合成音声の平均評価スコア(MOS)を予測するためのディープラーニングベースのモデルを提案し、人間のレイパーを置き換える可能性を示している。
しかし,MOSの層間および層内変動は,モデルの性能向上を困難にしている。
本稿では,マルチタスク学習(MTL)手法を提案し,次の2つの補助課題であるスプーフィング検出(SD)とスプーフィング型分類(STC)を用いて,MOS予測モデルの性能を向上させる。
また,mos予測にはsdとstcの相乗効果を最大化するために焦点損失を用いる。
音声変換チャレンジ2018のMOS評価結果を用いた実験では、2つの補助タスクを備えたMTLの提案がMOS予測を改善することが示された。
提案モデルでは,ベースラインモデルよりも11.6%の性能向上を実現している。
関連論文リスト
- On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Multi-Task Pseudo-Label Learning for Non-Intrusive Speech Quality
Assessment Model [28.32514067707762]
本研究ではMTQ-Netと呼ばれるマルチタスク擬似ラベル学習(MPL)に基づく非侵入的音声品質評価モデルを提案する。
MPLは、事前訓練されたモデルから擬似ラベルスコアを取得し、マルチタスク学習を行う2つの段階から構成される。
MPLアプローチによるMTQ-Netは、他のSSLベースの音声アセスメントモデルと比較して、全体的な予測能力が高い。
論文 参考訳(メタデータ) (2023-08-18T02:36:21Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Speech MOS multi-task learning and rater bias correction [10.123346550775471]
平均意見スコア(MOS)は、音声品質の知覚的評価のために標準化され、聞き手に音声サンプルの品質を評価させる。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T20:06:27Z) - Investigating Content-Aware Neural Text-To-Speech MOS Prediction Using
Prosodic and Linguistic Features [54.48824266041105]
MOS予測ニューラルモデルに基づく自動合成音声評価の最先端手法について検討した。
MOS予測システムに付加的な入力として韻律的特徴と言語的特徴を含めることを提案する。
すべてのMOS予測システムは、クラウドソースされた自然性MOS評価を備えた、TSSのみのニューラルネットワークであるSOMOSでトレーニングされている。
論文 参考訳(メタデータ) (2022-11-01T09:18:50Z) - Improving Self-Supervised Learning-based MOS Prediction Networks [0.0]
本研究は,従来の自己教師型学習ベースMOS予測モデルに対して,データ,トレーニング,後訓練による具体的な改善を導入する。
We used a wav2vec 2.0 model pre-trained on LibriSpeech, extended with LSTM and non-linear dense layer。
この手法は,第1のVoice MOSチャレンジの共有合成音声データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-04-23T09:19:16Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Learning to Maximize Speech Quality Directly Using MOS Prediction for
Neural Text-to-Speech [15.796199345773873]
本稿では,知覚的損失の監視の下でTSモデルを訓練することにより,音声品質を向上させる新しい手法を提案する。
まず、平均世論スコア(MOS)予測モデルを事前訓練し、次に合成音声のMOSを最大化するためにTSモデルを訓練する。
提案手法は,TSモデルアーキテクチャや音声品質劣化の原因に関わらず,独立して適用することができる。
論文 参考訳(メタデータ) (2020-11-02T18:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。