論文の概要: MooseNet: A trainable metric for synthesized speech with plda backend
- arxiv url: http://arxiv.org/abs/2301.07087v1
- Date: Tue, 17 Jan 2023 18:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:16:00.998498
- Title: MooseNet: A trainable metric for synthesized speech with plda backend
- Title(参考訳): MooseNet:pldaバックエンドを用いた合成音声のトレーニング可能なメトリック
- Authors: Ond\v{r}ej Pl\'atek, Ond\v{r}ej Du\v{s}ek
- Abstract要約: 聴取者の平均オピニオンスコア(MOS)を予測するトレーニング可能な音声メトリックであるMooseNetを提案する。
簡単なモデリング手法を用いて,課題ベースラインの改善について報告する。
- 参考スコア(独自算出の注目度): 3.42658286826597
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MooseNet, a trainable speech metric that predicts listeners' Mean
Opinion Score (MOS). We report improvements to the challenge baselines using
easy-to-use modeling techniques, which also scales for larger self-supervised
learning (SSL) model. We present two models. The first model is a Neural
Network (NN). As a second model, we propose a PLDA generative model on the top
layers of the first NN model, which improves the pure NN model. Ensembles from
our two models achieve the top 3 or 4 VoiceMOS leaderboard places on all system
and utterance level metrics.
- Abstract(参考訳): リスナーの平均意見スコア(mos)を予測する学習可能な音声指標であるmoosenetを提案する。
提案手法は,sslモデルにも適用できるため,簡易なモデリング手法を用いて,課題ベースラインの改善を報告した。
2つのモデルを紹介します
最初のモデルはニューラルネットワーク(NN)である。
第2のモデルとして、第1のNNモデルのトップ層上のPLDA生成モデルを提案し、純粋なNNモデルを改善する。
2つのモデルのアンサンブルは、すべてのシステムと発話レベルメトリクスで、トップ3か4のvoicemosリーダーボードの場所を達成する。
関連論文リスト
- Pushing the Limits of Unsupervised Unit Discovery for SSL Speech
Representation [12.506633315768832]
HuBERTは、オフラインクラスタリングを利用して、音声特徴を個別単位に変換して、マスク付き言語モデリングプリテキストタスクの例である。
SSLターゲットを改善するための教師なし手法を提案する。
MonoBERTとPolyBERTの2つのモデルが提案されている。
論文 参考訳(メタデータ) (2023-06-15T07:45:12Z) - LowDINO -- A Low Parameter Self Supervised Learning Model [0.0]
本研究は,小規模ネットワークが巨大ネットワークの特性を活用可能なニューラルネットワークアーキテクチャの設計の可能性を検討することを目的とする。
これまでの研究では、畳み込みニューラルネットワーク(ConvNet)を使用することで、固有の帰納バイアスが得られることが示されている。
パラメータの数を減らすために、MobileViTブロックを使用してアテンションメカニズムを利用する。
論文 参考訳(メタデータ) (2023-05-28T18:34:59Z) - On Data Sampling Strategies for Training Neural Network Speech
Separation Models [26.94528951545861]
音声分離は多話者信号処理の重要な領域である。
ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。
これらのモデルの中には、トレーニングにかなりの時間を要するものもあり、高いメモリ要求がある。
これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。
論文 参考訳(メタデータ) (2023-04-14T14:05:52Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - A Mixed Integer Programming Approach to Training Dense Neural Networks [0.0]
完全連結ANNの学習のための新しい混合整数プログラミング(MIP)法を提案する。
我々の定式化は、バイナリアクティベーションと修正線形ユニット(ReLU)アクティベーションANNの両方を考慮することができる。
また、モデル事前学習のために、ANNのレイヤー数を減少させる手法である層ワイドグリーディ手法を開発した。
論文 参考訳(メタデータ) (2022-01-03T15:53:51Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。