論文の概要: Fusion of Self-supervised Learned Models for MOS Prediction
- arxiv url: http://arxiv.org/abs/2204.04855v1
- Date: Mon, 11 Apr 2022 03:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 04:57:17.039647
- Title: Fusion of Self-supervised Learned Models for MOS Prediction
- Title(参考訳): MOS予測のための自己教師付き学習モデルの融合
- Authors: Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre,
Raphael Rubino, Yi Zhao
- Abstract要約: 本稿では、7つの事前訓練された自己教師付き学習(SSL)モデルが関与する融合フレームワークを提案する。
当社のシステムは,16項目中6項目で1位を獲得し,16項目中13項目で上位3項目のシステムのひとつです。
基本的なSSLモデルと比較して、融合システムの予測精度は大幅に改善されている。
- 参考スコア(独自算出の注目度): 25.581283686725214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We participated in the mean opinion score (MOS) prediction challenge, 2022.
This challenge aims to predict MOS scores of synthetic speech on two tracks,
the main track and a more challenging sub-track: out-of-domain (OOD). To
improve the accuracy of the predicted scores, we have explored several model
fusion-related strategies and proposed a fused framework in which seven
pretrained self-supervised learned (SSL) models have been engaged. These
pretrained SSL models are derived from three ASR frameworks, including Wav2Vec,
Hubert, and WavLM. For the OOD track, we followed the 7 SSL models selected on
the main track and adopted a semi-supervised learning method to exploit the
unlabeled data. According to the official analysis results, our system has
achieved 1st rank in 6 out of 16 metrics and is one of the top 3 systems for 13
out of 16 metrics. Specifically, we have achieved the highest LCC, SRCC, and
KTAU scores at the system level on main track, as well as the best performance
on the LCC, SRCC, and KTAU evaluation metrics at the utterance level on OOD
track. Compared with the basic SSL models, the prediction accuracy of the fused
system has been largely improved, especially on OOD sub-track.
- Abstract(参考訳): 我々は2022年の平均世論スコア(MOS)予測課題に参加した。
この挑戦は、メイントラックとより挑戦的なサブトラックであるout-of-domain(ood)という2つのトラックで合成音声のmosスコアを予測することを目的としている。
予測スコアの精度を向上させるため,いくつかのモデル融合関連戦略を検討し,前訓練済み自己教師付き学習モデル (ssl) を組み込んだ融合フレームワークを提案した。
これらの事前訓練されたSSLモデルは、Wav2Vec、Hubert、WavLMを含む3つのASRフレームワークに由来する。
OODトラックでは、メイントラックで選択された7つのSSLモデルに従い、ラベルなしデータを利用するための半教師付き学習手法を採用した。
公式な分析結果によると、このシステムは16のメトリクスのうち6つで1位に達し、16のメトリクスのうち13のシステムでトップ3の1つとなっている。
具体的には,本トラックのシステムレベルでの最高スコアと,OODトラックの発話レベルにおけるLCC,SRCC,KTAU評価値の最高スコアを達成している。
基本的なSSLモデルと比較して、特にOODサブトラックでは、融合システムの予測精度が大幅に改善されている。
関連論文リスト
- Uncertainty as a Predictor: Leveraging Self-Supervised Learning for
Zero-Shot MOS Prediction [40.51248841706311]
本稿では,低リソース環境における高効率な音質予測のギャップについて論じる。
我々は、wav2vecのような事前訓練された自己教師型学習モデルから得られた不確実性はVoiceMOSスコアと相関することを示した。
論文 参考訳(メタデータ) (2023-12-25T05:35:28Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Efficient Out-of-Distribution Detection with Prototypical
Semi-Supervised Learning and Foundation Models [0.0]
PAWS-VMKは、コンピュータビジョンの分野におけるプロトタイプ半教師あり学習に対する改善されたアプローチである。
CIFAR-10(99.2%)とCIFAR-100(89.8%-101)の半教師付き学習において、クラス毎に4つのラベル付きインスタンスと、クラス毎に2つのラベル付きインスタンスを持つ食品(90.1%)のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Towards Sustainable Self-supervised Learning [193.78876000005366]
本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。
まず、ベースモデルから与えられたターゲットを強化するパッチリレーション強化ターゲットを提案し、ベースモデルからセマンティックリレーション知識を学ぶことを奨励する。
次に、新しいモデル予測を適応的に調整し、異なるベースモデルのターゲットに合わせる条件付きアダプタを提案する。
論文 参考訳(メタデータ) (2022-10-20T04:49:56Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。