論文の概要: Parameter-Efficient Learning for Text-to-Speech Accent Adaptation
- arxiv url: http://arxiv.org/abs/2305.11320v1
- Date: Thu, 18 May 2023 22:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:09:48.485720
- Title: Parameter-Efficient Learning for Text-to-Speech Accent Adaptation
- Title(参考訳): テキストから音声へのアクセント適応のためのパラメータ効率向上学習
- Authors: Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien
- Abstract要約: 本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
- 参考スコア(独自算出の注目度): 58.356667204518985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a parameter-efficient learning (PEL) to develop a
low-resource accent adaptation for text-to-speech (TTS). A resource-efficient
adaptation from a frozen pre-trained TTS model is developed by using only 1.2\%
to 0.8\% of original trainable parameters to achieve competitive performance in
voice synthesis. Motivated by a theoretical foundation of optimal transport
(OT), this study carries out PEL for TTS where an auxiliary unsupervised loss
based on OT is introduced to maximize a difference between the pre-trained
source domain and the (unseen) target domain, in addition to its supervised
training loss. Further, we leverage upon this unsupervised loss refinement to
boost system performance via either sliced Wasserstein distance or maximum mean
discrepancy. The merit of this work is demonstrated by fulfilling PEL solutions
based on residual adapter learning, and model reprogramming when evaluating the
Mandarin accent adaptation. Experiment results show that the proposed methods
can achieve competitive naturalness with parameter-efficient decoder
fine-tuning, and the auxiliary unsupervised loss improves model performance
empirically.
- Abstract(参考訳): 本稿では,テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
従来のトレーニング可能なパラメータの1.2~0.8%しか使用せず, 音声合成における競合性能を実現することにより, 冷凍前訓練TSモデルからの資源効率の向上を実現した。
本研究は, 最適輸送(OT)の理論的基礎を基礎として, OTに基づく補助的非教師的損失を導入し, 教師付きトレーニング損失に加えて, 事前訓練されたソースドメインと(見えない)ターゲットドメインとの差を最大化する。
さらに,この教師なしの損失改善を生かして,スライスワッセルスタイン距離と最大平均差のどちらかを介してシステム性能を向上させる。
本研究のメリットは,残差アダプタ学習に基づくpelソリューションの実現と,マンダリンアクセント適応評価時のモデル再プログラミングによって実証される。
実験の結果,提案手法はパラメータ効率の良いデコーダの微調整により競合自然性を達成でき,補助的な教師なし損失はモデル性能を経験的に向上できることがわかった。
関連論文リスト
- PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では,PYRA(Parallel Yielding Re-Activation)手法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic
Forgetting [12.474522847102207]
既存のベイズ学習手法を応用して,破滅的な忘れ込みを防止できることが示唆された。
以上の結果から,微調整性能を低下させることなく,破滅的な忘れ込みを克服できることが示唆された。
論文 参考訳(メタデータ) (2024-02-19T15:26:19Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Attention Loss Adjusted Prioritized Experience Replay [0.0]
優先再生体験(PER)は、ニューラルネットワークのトレーニング率を改善するために、より知識量の多い経験サンプルを選択することによって、深層強化学習の技術的手段である。
PERで使用される非一様サンプリングは、状態-作用空間分布を必然的にシフトさせ、Q値関数の推定誤差をもたらす。
改良された自己認識ネットワークとダブルサンプリング機構を統合したALAP体験再生アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:49:32Z) - Deep Learning Meets Adaptive Filtering: A Stein's Unbiased Risk
Estimator Approach [13.887632153924512]
本稿では,Deep RLSとDeep EASIというタスクベースのディープラーニングフレームワークを紹介する。
これらのアーキテクチャは、元のアルゴリズムの繰り返しをディープニューラルネットワークの層に変換し、効率的なソース信号推定を可能にする。
性能をさらに向上するために、我々は、スタインの非バイアスリスク推定器(SURE)に基づく代理損失関数を用いた、これらの深層無ロールネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2023-07-31T14:26:41Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。