論文の概要: Evaluation of Speech Representations for MOS prediction
- arxiv url: http://arxiv.org/abs/2306.09979v1
- Date: Fri, 16 Jun 2023 17:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 12:53:40.121223
- Title: Evaluation of Speech Representations for MOS prediction
- Title(参考訳): MOS予測のための音声表現の評価
- Authors: Frederico S. Oliveira, Edresson Casanova, Arnaldo C\^andido J\'unior,
Lucas R. S. Gris, Anderson S. Soares, and Arlindo R. Galv\~ao Filho
- Abstract要約: 本稿では,音声品質予測のための特徴抽出モデルの評価を行う。
また,教師付き学習モデルと自己教師付き学習モデルの埋め込みを話者検証モデルの埋め込みと比較するモデルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.7329200485567826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we evaluate feature extraction models for predicting speech
quality. We also propose a model architecture to compare embeddings of
supervised learning and self-supervised learning models with embeddings of
speaker verification models to predict the metric MOS. Our experiments were
performed on the VCC2018 dataset and a Brazilian-Portuguese dataset called
BRSpeechMOS, which was created for this work. The results show that the Whisper
model is appropriate in all scenarios: with both the VCC2018 and BRSpeech- MOS
datasets. Among the supervised and self-supervised learning models using
BRSpeechMOS, Whisper-Small achieved the best linear correlation of 0.6980, and
the speaker verification model, SpeakerNet, had linear correlation of 0.6963.
Using VCC2018, the best supervised and self-supervised learning model,
Whisper-Large, achieved linear correlation of 0.7274, and the best model
speaker verification, TitaNet, achieved a linear correlation of 0.6933.
Although the results of the speaker verification models are slightly lower, the
SpeakerNet model has only 5M parameters, making it suitable for real-time
applications, and the TitaNet model produces an embedding of size 192, the
smallest among all the evaluated models. The experiment results are
reproducible with publicly available source-code1 .
- Abstract(参考訳): 本稿では,音声品質予測のための特徴抽出モデルを評価する。
また,教師付き学習モデルと教師付き学習モデルの埋め込みと話者検証モデルの埋め込みを比較して,メトリックMOSを予測するモデルアーキテクチャを提案する。
この研究のために開発されたVCC2018データセットとブラジルとポルトガルのデータセットであるBRSpeechMOSを用いて実験を行った。
結果は、VCC2018とBRSpeech-MOSデータセットの両方で、Whisperモデルがすべてのシナリオで適切であることを示している。
BRSpeechMOSを用いた教師付きおよび自己教師型学習モデルのうち、Whisper-Small は 0.6980 の最良の線形相関を達成し、話者検証モデルである SpeakerNet は 0.6963 の線形相関を達成した。
最高の教師付き自己教師型学習モデルであるWhisper-LargeのVCC2018を用いて線形相関を0.7274とし、最良のモデル話者検証であるTitaNetの線形相関を0.6933とした。
話者検証モデルの結果はわずかに低いが、話者ネットモデルは5Mパラメータしか持たず、リアルタイムアプリケーションに適したものであり、TitaNetモデルはすべての評価モデルの中で最小の192の埋め込みを生成する。
実験結果は、公開されているソースコード1で再現可能である。
関連論文リスト
- What Should Baby Models Read? Exploring Sample-Efficient Data Composition on Model Performance [0.0]
我々は、子指向音声(CHILDES)、古典書(Gutenberg)、合成データ(TinyStories)、様々なモデルサイズにまたがる混合データなど、いくつかのデータセットソースを評価した。
GPT2-97M, GPT2-705M, Llama-360Mなどの小さなモデルでは, Gutenbergのようなより複雑でリッチなデータセットでトレーニングすると, より優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-11T02:37:21Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation [2.423547527175807]
我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
論文 参考訳(メタデータ) (2021-12-30T14:19:27Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Normalizing Flow based Hidden Markov Models for Classification of Speech
Phones with Explainability [25.543231171094384]
説明可能性を求めるため,逐次データ生成モデルを開発した。
我々は、現代のニューラルネットワーク(正規化フロー)と伝統的な生成モデル(隠れマルコフモデル - HMM)を組み合わせる。
提案した生成モデルは、データの可能性を計算することができ、従って、最大形分類法(ML)に直接適合する。
論文 参考訳(メタデータ) (2021-07-01T20:10:55Z) - ModelDiff: Testing-Based DNN Similarity Comparison for Model Reuse
Detection [9.106864924968251]
ModelDiffは、ディープラーニングモデル類似性比較に対するテストベースのアプローチである。
モバイルディープラーニングアプリの研究は、現実世界のモデルにおけるModelDiffの可能性を示している。
論文 参考訳(メタデータ) (2021-06-11T15:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。