論文の概要: Parameter-Efficient Learning for Text-to-Speech Accent Adaptation
- arxiv url: http://arxiv.org/abs/2305.11320v1
- Date: Thu, 18 May 2023 22:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:09:48.485720
- Title: Parameter-Efficient Learning for Text-to-Speech Accent Adaptation
- Title(参考訳): テキストから音声へのアクセント適応のためのパラメータ効率向上学習
- Authors: Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien
- Abstract要約: 本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
- 参考スコア(独自算出の注目度): 58.356667204518985
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a parameter-efficient learning (PEL) to develop a
low-resource accent adaptation for text-to-speech (TTS). A resource-efficient
adaptation from a frozen pre-trained TTS model is developed by using only 1.2\%
to 0.8\% of original trainable parameters to achieve competitive performance in
voice synthesis. Motivated by a theoretical foundation of optimal transport
(OT), this study carries out PEL for TTS where an auxiliary unsupervised loss
based on OT is introduced to maximize a difference between the pre-trained
source domain and the (unseen) target domain, in addition to its supervised
training loss. Further, we leverage upon this unsupervised loss refinement to
boost system performance via either sliced Wasserstein distance or maximum mean
discrepancy. The merit of this work is demonstrated by fulfilling PEL solutions
based on residual adapter learning, and model reprogramming when evaluating the
Mandarin accent adaptation. Experiment results show that the proposed methods
can achieve competitive naturalness with parameter-efficient decoder
fine-tuning, and the auxiliary unsupervised loss improves model performance
empirically.
- Abstract(参考訳): 本稿では,テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
従来のトレーニング可能なパラメータの1.2~0.8%しか使用せず, 音声合成における競合性能を実現することにより, 冷凍前訓練TSモデルからの資源効率の向上を実現した。
本研究は, 最適輸送(OT)の理論的基礎を基礎として, OTに基づく補助的非教師的損失を導入し, 教師付きトレーニング損失に加えて, 事前訓練されたソースドメインと(見えない)ターゲットドメインとの差を最大化する。
さらに,この教師なしの損失改善を生かして,スライスワッセルスタイン距離と最大平均差のどちらかを介してシステム性能を向上させる。
本研究のメリットは,残差アダプタ学習に基づくpelソリューションの実現と,マンダリンアクセント適応評価時のモデル再プログラミングによって実証される。
実験の結果,提案手法はパラメータ効率の良いデコーダの微調整により競合自然性を達成でき,補助的な教師なし損失はモデル性能を経験的に向上できることがわかった。
関連論文リスト
- Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting [10.559392015748989]
微調整性能を低下させることなく,我々の手法によって破滅的な忘れを克服できることを示す。
以上の結果から,Kronecker-factored approximation を用いることで,対角線よりも学習前の知識の保存性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-19T15:26:19Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Attention Loss Adjusted Prioritized Experience Replay [0.0]
優先再生体験(PER)は、ニューラルネットワークのトレーニング率を改善するために、より知識量の多い経験サンプルを選択することによって、深層強化学習の技術的手段である。
PERで使用される非一様サンプリングは、状態-作用空間分布を必然的にシフトさせ、Q値関数の推定誤差をもたらす。
改良された自己認識ネットワークとダブルサンプリング機構を統合したALAP体験再生アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:49:32Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。