論文の概要: Fusion of Self-supervised Learned Models for MOS Prediction
- arxiv url: http://arxiv.org/abs/2204.04855v1
- Date: Mon, 11 Apr 2022 03:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 04:57:17.039647
- Title: Fusion of Self-supervised Learned Models for MOS Prediction
- Title(参考訳): MOS予測のための自己教師付き学習モデルの融合
- Authors: Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre,
Raphael Rubino, Yi Zhao
- Abstract要約: 本稿では、7つの事前訓練された自己教師付き学習(SSL)モデルが関与する融合フレームワークを提案する。
当社のシステムは,16項目中6項目で1位を獲得し,16項目中13項目で上位3項目のシステムのひとつです。
基本的なSSLモデルと比較して、融合システムの予測精度は大幅に改善されている。
- 参考スコア(独自算出の注目度): 25.581283686725214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We participated in the mean opinion score (MOS) prediction challenge, 2022.
This challenge aims to predict MOS scores of synthetic speech on two tracks,
the main track and a more challenging sub-track: out-of-domain (OOD). To
improve the accuracy of the predicted scores, we have explored several model
fusion-related strategies and proposed a fused framework in which seven
pretrained self-supervised learned (SSL) models have been engaged. These
pretrained SSL models are derived from three ASR frameworks, including Wav2Vec,
Hubert, and WavLM. For the OOD track, we followed the 7 SSL models selected on
the main track and adopted a semi-supervised learning method to exploit the
unlabeled data. According to the official analysis results, our system has
achieved 1st rank in 6 out of 16 metrics and is one of the top 3 systems for 13
out of 16 metrics. Specifically, we have achieved the highest LCC, SRCC, and
KTAU scores at the system level on main track, as well as the best performance
on the LCC, SRCC, and KTAU evaluation metrics at the utterance level on OOD
track. Compared with the basic SSL models, the prediction accuracy of the fused
system has been largely improved, especially on OOD sub-track.
- Abstract(参考訳): 我々は2022年の平均世論スコア(MOS)予測課題に参加した。
この挑戦は、メイントラックとより挑戦的なサブトラックであるout-of-domain(ood)という2つのトラックで合成音声のmosスコアを予測することを目的としている。
予測スコアの精度を向上させるため,いくつかのモデル融合関連戦略を検討し,前訓練済み自己教師付き学習モデル (ssl) を組み込んだ融合フレームワークを提案した。
これらの事前訓練されたSSLモデルは、Wav2Vec、Hubert、WavLMを含む3つのASRフレームワークに由来する。
OODトラックでは、メイントラックで選択された7つのSSLモデルに従い、ラベルなしデータを利用するための半教師付き学習手法を採用した。
公式な分析結果によると、このシステムは16のメトリクスのうち6つで1位に達し、16のメトリクスのうち13のシステムでトップ3の1つとなっている。
具体的には,本トラックのシステムレベルでの最高スコアと,OODトラックの発話レベルにおけるLCC,SRCC,KTAU評価値の最高スコアを達成している。
基本的なSSLモデルと比較して、特にOODサブトラックでは、融合システムの予測精度が大幅に改善されている。
関連論文リスト
- SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection [92.38300626647342]
SEALは、二段階最適化に基づいてデータローカを学習し、安全で高品質な微調整データをランク付けし、安全でないものや低品質なものをランク付けする。
SEALで訓練されたモデルは、複数のベースラインよりも優れた品質を示し、ランダム選択に比べて8.5%と9.7%の勝利率が上昇した。
論文 参考訳(メタデータ) (2024-10-09T22:24:22Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。
本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。
提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-04T12:58:19Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。