Fugu-MT 論文翻訳(概要): Semi-Supervised Learning Based on Reference Model for Low-resource TTS

論文の概要: Semi-Supervised Learning Based on Reference Model for Low-resource TTS

arxiv url: http://arxiv.org/abs/2210.14723v1
Date: Tue, 25 Oct 2022 07:48:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-27 15:53:53.834045
Title: Semi-Supervised Learning Based on Reference Model for Low-resource TTS
Title（参考訳）: 低リソースTSの参照モデルに基づく半教師付き学習
Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
Abstract要約: 本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 32.731900584216724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Most previous neural text-to-speech (TTS) methods are mainly based on supervised learning methods, which means they depend on a large training dataset and hard to achieve comparable performance under low-resource conditions. To address this issue, we propose a semi-supervised learning method for neural TTS in which labeled target data is limited, which can also resolve the problem of exposure bias in the previous auto-regressive models. Specifically, we pre-train the reference model based on Fastspeech2 with much source data, fine-tuned on a limited target dataset. Meanwhile, pseudo labels generated by the original reference model are used to guide the fine-tuned model's training further, achieve a regularization effect, and reduce the overfitting of the fine-tuned model during training on the limited target data. Experimental results show that our proposed semi-supervised learning scheme with limited target data significantly improves the voice quality for test data to achieve naturalness and robustness in speech synthesis.
Abstract（参考訳）: これまでのほとんどのニューラルテキスト音声(TTS)法は、主に教師付き学習法に基づいており、これは大規模なトレーニングデータセットに依存しており、低リソース条件下では同等のパフォーマンスを達成できないことを意味している。この問題に対処するために、ラベル付き対象データが制限されたニューラルネットワークの半教師付き学習法を提案し、従来の自己回帰モデルにおける露出バイアスの問題を解消する。具体的には、Fastspeech2に基づく参照モデルを、限られたターゲットデータセットに基づいて微調整した大量のソースデータで事前訓練する。一方、原基準モデルにより生成された擬似ラベルを用いて、細調整モデルのトレーニングをさらに誘導し、正規化効果を達成し、限られた目標データ上でのトレーニング中の細調整モデルのオーバーフィットを低減する。実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。

関連論文リスト

Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文参考訳（メタデータ） (2025-06-02T09:46:08Z)
SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-19T17:57:36Z)
Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文参考訳（メタデータ） (2024-11-14T23:56:57Z)
Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。 LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文参考訳（メタデータ） (2024-09-10T00:59:18Z)
Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文参考訳（メタデータ） (2024-07-11T18:01:58Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。 ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文参考訳（メタデータ） (2023-10-02T01:30:27Z)
Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-12-20T19:29:37Z)
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-12T04:42:49Z)
NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文参考訳（メタデータ） (2021-08-29T06:58:28Z)
Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文参考訳（メタデータ） (2021-04-07T17:59:06Z)
Training Deep Normalizing Flow Models in Highly Incomplete Data Scenarios with Prior Regularization [13.985534521589257]
ハイパウシティシナリオにおけるデータ分布の学習を容易にする新しいフレームワークを提案する。提案手法は,不完全データから学習過程を協調最適化タスクとして行うことに由来する。
論文参考訳（メタデータ） (2021-04-03T20:57:57Z)
Fine-tuning BERT for Low-Resource Natural Language Understanding via Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文参考訳（メタデータ） (2020-12-04T08:34:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。