Fugu-MT 論文翻訳(概要): Fusion of Self-supervised Learned Models for MOS Prediction

論文の概要: Fusion of Self-supervised Learned Models for MOS Prediction

arxiv url: http://arxiv.org/abs/2204.04855v1
Date: Mon, 11 Apr 2022 03:50:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 04:57:17.039647
Title: Fusion of Self-supervised Learned Models for MOS Prediction
Title（参考訳）: MOS予測のための自己教師付き学習モデルの融合
Authors: Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao
Abstract要約: 本稿では、7つの事前訓練された自己教師付き学習(SSL)モデルが関与する融合フレームワークを提案する。当社のシステムは,16項目中6項目で1位を獲得し,16項目中13項目で上位3項目のシステムのひとつです。基本的なSSLモデルと比較して、融合システムの予測精度は大幅に改善されている。
参考スコア（独自算出の注目度）: 25.581283686725214
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We participated in the mean opinion score (MOS) prediction challenge, 2022. This challenge aims to predict MOS scores of synthetic speech on two tracks, the main track and a more challenging sub-track: out-of-domain (OOD). To improve the accuracy of the predicted scores, we have explored several model fusion-related strategies and proposed a fused framework in which seven pretrained self-supervised learned (SSL) models have been engaged. These pretrained SSL models are derived from three ASR frameworks, including Wav2Vec, Hubert, and WavLM. For the OOD track, we followed the 7 SSL models selected on the main track and adopted a semi-supervised learning method to exploit the unlabeled data. According to the official analysis results, our system has achieved 1st rank in 6 out of 16 metrics and is one of the top 3 systems for 13 out of 16 metrics. Specifically, we have achieved the highest LCC, SRCC, and KTAU scores at the system level on main track, as well as the best performance on the LCC, SRCC, and KTAU evaluation metrics at the utterance level on OOD track. Compared with the basic SSL models, the prediction accuracy of the fused system has been largely improved, especially on OOD sub-track.
Abstract（参考訳）: 我々は2022年の平均世論スコア(MOS)予測課題に参加した。この挑戦は、メイントラックとより挑戦的なサブトラックであるout-of-domain(ood)という2つのトラックで合成音声のmosスコアを予測することを目的としている。予測スコアの精度を向上させるため,いくつかのモデル融合関連戦略を検討し,前訓練済み自己教師付き学習モデル (ssl) を組み込んだ融合フレームワークを提案した。これらの事前訓練されたSSLモデルは、Wav2Vec、Hubert、WavLMを含む3つのASRフレームワークに由来する。 OODトラックでは、メイントラックで選択された7つのSSLモデルに従い、ラベルなしデータを利用するための半教師付き学習手法を採用した。公式な分析結果によると、このシステムは16のメトリクスのうち6つで1位に達し、16のメトリクスのうち13のシステムでトップ3の1つとなっている。具体的には,本トラックのシステムレベルでの最高スコアと,OODトラックの発話レベルにおけるLCC,SRCC,KTAU評価値の最高スコアを達成している。基本的なSSLモデルと比較して、特にOODサブトラックでは、融合システムの予測精度が大幅に改善されている。

関連論文リスト

Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [69.14405906946634]
このようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介する。本手法は,判断バイアスを軽減し,思考にインセンティブを与える検証可能な報酬を用いて,検証可能なプロンプトと検証不可能なプロンプトの両方を判断タスクに変換する。評価基準を概説し、自己生成した基準回答と比較し、モデル応答の正しさを再評価することにより、モデルがより良い判断を下すことが判明した。
論文参考訳（メタデータ） (2025-05-15T14:05:15Z)
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom [45.382739152668954]
高度な大規模言語モデルの命令追従能力をより小さなモデルに拡張することは、モデルの訓練において主流のアプローチとなっている。我々は、より多様な信号を用いて、包括的命令応答対の特性を捉える。本稿では、クラスタリングに基づくアプローチを取り入れた、応答の多様性を維持するための統合メトリックであるCrowdSelectを提案する。
論文参考訳（メタデータ） (2025-03-03T18:56:44Z)
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language Model [69.74609763584449]
本研究は,地震モニタリングにクロスモーダル転送を利用する最初の基礎モデルであるSeesMoLLMを提示する。 5つの重要なタスクでDiTingとSTEADデータセットの最先端のパフォーマンスを実現する。優れたパフォーマンスに加えて、SeesMoLLMはトレーニングと推論の両方において軽量モデルに匹敵する効率を維持している。
論文参考訳（メタデータ） (2025-02-27T10:35:53Z)
SEAL: Safety-enhanced Aligned LLM Fine-tuning via Bilevel Data Selection [92.38300626647342]
SEALは、二段階最適化に基づいてデータローカを学習し、安全で高品質な微調整データをランク付けし、安全でないものや低品質なものをランク付けする。 SEALで訓練されたモデルは、複数のベースラインよりも優れた品質を示し、ランダム選択に比べて8.5%と9.7%の勝利率が上昇した。
論文参考訳（メタデータ） (2024-10-09T22:24:22Z)
Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文参考訳（メタデータ） (2024-08-05T17:57:02Z)
Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models [0.0]
大規模ASRモデルからの音声表現には、貴重な話者情報が含まれる。本稿では,事前学習したWavLMを教師付き損失で微調整することにより,SSLコンテキストで話者表現を学習するフレームワークを提案する。提案手法はVoxCeleb1-O上で0.99%のEERを達成し,自己教師型SVにおける新たな最先端技術を確立する。
論文参考訳（メタデータ） (2024-06-04T12:58:19Z)
Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文参考訳（メタデータ） (2024-06-03T03:58:41Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文参考訳（メタデータ） (2024-04-09T09:03:44Z)
Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文参考訳（メタデータ） (2022-11-18T02:00:17Z)
Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文参考訳（メタデータ） (2022-11-09T20:00:21Z)
Evidence of Vocal Tract Articulation in Self-Supervised Learning of Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。 EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文参考訳（メタデータ） (2022-10-21T04:24:29Z)
The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文参考訳（メタデータ） (2022-09-21T06:54:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。