論文の概要: MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module
- arxiv url: http://arxiv.org/abs/2301.07087v2
- Date: Thu, 29 Jun 2023 06:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 19:28:11.030466
- Title: MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module
- Title(参考訳): MooseNet:PLDAモジュールによる音声合成のためのトレーニング可能なメトリック
- Authors: Ond\v{r}ej Pl\'atek, Ond\v{r}ej Du\v{s}ek
- Abstract要約: 聴取者の平均オピニオンスコア(MOS)を予測する訓練可能な音声メトリックであるMooseNetを提案する。
本稿では,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136の発話でのみ訓練された場合,非微細なSSLモデルでうまく機能することを示す。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MooseNet, a trainable speech metric that predicts the listeners'
Mean Opinion Score (MOS). We propose a novel approach where the Probabilistic
Linear Discriminative Analysis (PLDA) generative model is used on top of an
embedding obtained from a self-supervised learning (SSL) neural network (NN)
model. We show that PLDA works well with a non-finetuned SSL model when trained
only on 136 utterances (ca. one minute training time) and that PLDA
consistently improves various neural MOS prediction models, even
state-of-the-art models with task-specific fine-tuning. Our ablation study
shows PLDA training superiority over SSL model fine-tuning in a low-resource
scenario. We also improve SSL model fine-tuning using a convenient optimizer
choice and additional contrastive and multi-task training objectives. The
fine-tuned MooseNet NN with the PLDA module achieves the best results,
surpassing the SSL baseline on the VoiceMOS Challenge data.
- Abstract(参考訳): 本稿では,聴取者の平均オピニオンスコア(MOS)を予測するトレーニング可能な音声メトリックであるMooseNetを紹介する。
本稿では,自己教師付き学習(SSL)ニューラルネットワーク(NN)モデルから得られた埋め込みの上に,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136発話(例えば1分間の訓練時間)でのみ訓練された場合のみ、非微細SSLモデルとうまく機能し、PLDAはタスク固有の微調整を伴う最先端モデルでさえも、様々な神経MOS予測モデルを一貫して改善することを示す。
本研究では,低リソースシナリオにおいてsslモデルの微調整よりもpldaトレーニングが優れていることを示す。
また、便利なオプティマイザ選択と、コントラストとマルチタスクのトレーニング目標によるSSLモデルの微調整も改善する。
細調整した MooseNet NN と PLDA モジュールは,VoiceMOS Challenge データの SSL ベースラインを越え,最高の結果を得る。
関連論文リスト
- Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - On Data Sampling Strategies for Training Neural Network Speech
Separation Models [26.94528951545861]
音声分離は多話者信号処理の重要な領域である。
ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。
これらのモデルの中には、トレーニングにかなりの時間を要するものもあり、高いメモリ要求がある。
これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。
論文 参考訳(メタデータ) (2023-04-14T14:05:52Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - A Mixed Integer Programming Approach to Training Dense Neural Networks [0.0]
完全連結ANNの学習のための新しい混合整数プログラミング(MIP)法を提案する。
我々の定式化は、バイナリアクティベーションと修正線形ユニット(ReLU)アクティベーションANNの両方を考慮することができる。
また、モデル事前学習のために、ANNのレイヤー数を減少させる手法である層ワイドグリーディ手法を開発した。
論文 参考訳(メタデータ) (2022-01-03T15:53:51Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。