論文の概要: ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation
- arxiv url: http://arxiv.org/abs/2305.18028v1
- Date: Mon, 29 May 2023 11:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:22:13.133466
- Title: ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation
- Title(参考訳): ADAPTERMIX:低リソースTTS適応のためのアダプタの混合の有効性を探る
- Authors: Ambuj Mehrish, Abhinav Ramesh Kashyap, Li Yingting, Navonil Majumder,
Soujanya Poria
- Abstract要約: 本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
- 参考スコア(独自算出の注目度): 18.84413550077318
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: There are significant challenges for speaker adaptation in text-to-speech for
languages that are not widely spoken or for speakers with accents or dialects
that are not well-represented in the training data. To address this issue, we
propose the use of the "mixture of adapters" method. This approach involves
adding multiple adapters within a backbone-model layer to learn the unique
characteristics of different speakers. Our approach outperforms the baseline,
with a noticeable improvement of 5% observed in speaker preference tests when
using only one minute of data for each new speaker. Moreover, following the
adapter paradigm, we fine-tune only the adapter parameters (11% of the total
model parameters). This is a significant achievement in parameter-efficient
speaker adaptation, and one of the first models of its kind. Overall, our
proposed approach offers a promising solution to the speech synthesis
techniques, particularly for adapting to speakers from diverse backgrounds.
- Abstract(参考訳): 広く話されていない言語や、訓練データにあまり表現されていないアクセントや方言を持つ話者にとって、話者適応には大きな課題がある。
この問題に対処するために,我々は「アダプタの混合」手法を提案する。
このアプローチでは、バックボーンモデル層に複数のアダプタを追加して、異なる話者の特徴を学習する。
提案手法は,新しい話者毎に1分間のデータのみを使用する場合,話者選好テストにおいて5%の顕著な改善が得られた。
さらに、アダプタパラダイムに従って、アダプタパラメータ(全体のモデルパラメータの11%)のみを微調整する。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
全体として,提案手法は音声合成技術,特に多様な背景を持つ話者に適応するための有望な解決策を提供する。
関連論文リスト
- Lightweight Zero-shot Text-to-Speech with Mixture of Adapters [36.29364245236912]
アダプタの混合 (MoA) を用いた軽量ゼロショット音声合成 (TTS) 手法を提案する。
提案手法は,非自己回帰的TSSモデルのデコーダと分散アダプタにMoAモジュールを組み込む。
提案手法は,最小限の追加パラメータで高品質な音声合成を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:45:31Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Adapter-Based Extension of Multi-Speaker Text-to-Speech Model for New
Speakers [8.980713707011953]
ファインチューニングは、テキスト音声(TTS)モデルを新しい話者に適応させる一般的な方法である。
また、ファインチューニングは、以前に学習した話者の音声合成の質に悪影響を及ぼす可能性がある。
本稿では,パラメータ効率のよいアダプタモジュールを用いたTTS適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-01T16:59:54Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Exploiting Adapters for Cross-lingual Low-resource Speech Recognition [52.40623653290499]
言語間の言語適応は、複数のリッチリソース言語を活用して低リソースターゲット言語のためのモデルを構築するという問題を解決することを目的としている。
パラメータ効率のよい言語間音声適応のための複数のアダプタの性能を調べるためのアダプタを提案する。
論文 参考訳(メタデータ) (2021-05-18T08:30:37Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - BOFFIN TTS: Few-Shot Speaker Adaptation by Bayesian Optimization [15.698168668305001]
本稿では,少数話者適応のための新しいアプローチであるBOFFIN TTSを提案する。
BOFFIN TTSは10分以内の音声で新しい話者を合成できることを示す。
論文 参考訳(メタデータ) (2020-02-04T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。