論文の概要: Multilingual Prosody Transfer: Comparing Supervised & Transfer Learning
- arxiv url: http://arxiv.org/abs/2406.00022v1
- Date: Thu, 23 May 2024 20:43:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-09 16:09:32.360357
- Title: Multilingual Prosody Transfer: Comparing Supervised & Transfer Learning
- Title(参考訳): 多言語韻律変換:教師付き・伝達学習の比較
- Authors: Arnav Goel, Medha Hira, Anubha Gupta,
- Abstract要約: 本研究は,事前学習したモノリンガルテキスト音声モデルを多言語条件に適応させる学習手法の評価に焦点をあてる。
その結果,スーパービジョンファインチューニング (SFT) と比較して,TLは性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 4.396042489971948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of prosody transfer in speech synthesis systems is rapidly advancing. This research is focused on evaluating learning methods for adapting pre-trained monolingual text-to-speech (TTS) models to multilingual conditions, i.e., Supervised Fine-Tuning (SFT) and Transfer Learning (TL). This comparison utilizes three distinct metrics: Mean Opinion Score (MOS), Recognition Accuracy (RA), and Mel Cepstral Distortion (MCD). Results demonstrate that, in comparison to SFT, TL leads to significantly enhanced performance, with an average MOS higher by 1.53 points, a 37.5% increase in RA, and approximately a 7.8-point improvement in MCD. These findings are instrumental in helping build TTS models for low-resource languages.
- Abstract(参考訳): 音声合成システムにおける韻律伝達の分野は急速に進歩している。
本研究は,事前学習したモノリンガルテキスト音声(TTS)モデルを多言語条件,すなわちスーパービジョンファインチューニング(SFT)とトランスファーラーニング(TL)に適応させる学習手法の評価に焦点をあてる。
この比較では、平均オピニオンスコア(MOS)、認識精度(RA)、Mel Cepstral Distortion(MCD)の3つの異なる指標を利用する。
SFTと比較して、TLは性能が大幅に向上し、平均MOSは1.53ポイント、RAは37.5%、MCDは約7.8ポイント向上した。
これらの発見は、低リソース言語のためのTSモデルの構築を支援するのに役立ちます。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - SCALE: Synergized Collaboration of Asymmetric Language Translation
Engines [105.8983433641208]
本稿では,コンパクトな特殊翻訳モデル (STM) と汎用大言語モデル (LLM) を1つの統合翻訳エンジンとして結合する協調フレームワークを提案する。
STMからの翻訳を3重項インコンテキストのデモに導入することで、SCALEはLLMの洗練とピボット能力を解放する。
実験の結果,SCALEは低リソース環境において,少数ショットLLM (GPT-4) と特殊モデル (NLLB) の両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-29T08:46:38Z) - A Comparative Analysis of Pretrained Language Models for Text-to-Speech [13.962029761484022]
State-of-the-the-art text-to-speech (TTS) システムは、韻律を高め、より自然な音声を生成するために、事前訓練された言語モデル(PLM)を利用している。
PLMは自然言語理解(NLU)のために広く研究されているが、TSへの影響は見過ごされている。
本研究は、異なるPLMがTSに与える影響を調査する最初の研究である。
論文 参考訳(メタデータ) (2023-09-04T13:02:27Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Probing Out-of-Distribution Robustness of Language Models with
Parameter-Efficient Transfer Learning [17.110208720745064]
本研究では, PLMのサイズが大きくなるか, 移動方法が変化するにつれて, 分布外を検出する能力がどう変化するかを検討する。
我々は,3種類の意図分類タスクにおいて,細調整,アダプタ,LoRA,プレフィックスチューニングなどのPETL技術を評価した。
論文 参考訳(メタデータ) (2023-01-27T11:27:40Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。