論文の概要: AdaDurIAN: Few-shot Adaptation for Neural Text-to-Speech with DurIAN
- arxiv url: http://arxiv.org/abs/2005.05642v1
- Date: Tue, 12 May 2020 09:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 19:35:36.793575
- Title: AdaDurIAN: Few-shot Adaptation for Neural Text-to-Speech with DurIAN
- Title(参考訳): AdaDuriAN:DuriANを用いたニューラルテキスト音声へのFew-shot Adaptation
- Authors: Zewang Zhang, Qiao Tian, Heng Lu, Ling-Hui Chen, Shan Liu
- Abstract要約: 最近提案されたエンドツーエンドのテキスト音声合成システムの弱点は、ロバストなアライメントを実現するのが難しいことである。
改良されたDurIANベースの平均モデルをトレーニングすることで、AdaDurIANを導入し、それを数ショット学習に活用する。
主観評価の結果,AdaDurIAN は自然性および話者類似性の嗜好において,高い平均世論スコア(MOS)を得ることがわかった。
- 参考スコア(独自算出の注目度): 23.390251240760293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to leverage a DurIAN-based average model to
enable a new speaker to have both accurate pronunciation and fluent
cross-lingual speaking with very limited monolingual data. A weakness of the
recently proposed end-to-end text-to-speech (TTS) systems is that robust
alignment is hard to achieve, which hinders it to scale well with very limited
data. To cope with this issue, we introduce AdaDurIAN by training an improved
DurIAN-based average model and leverage it to few-shot learning with the shared
speaker-independent content encoder across different speakers. Several few-shot
learning tasks in our experiments show AdaDurIAN can outperform the baseline
end-to-end system by a large margin. Subjective evaluations also show that
AdaDurIAN yields higher mean opinion score (MOS) of naturalness and more
preferences of speaker similarity. In addition, we also apply AdaDurIAN to
emotion transfer tasks and demonstrate its promising performance.
- Abstract(参考訳): 本稿では,DurIANに基づく平均モデルを用いて,新しい話者が,非常に限定的な単言語データを用いて,正確な発音と流動的な言語間発話を両立させる方法について検討する。
最近提案された end-to-end text-to-speech (tts) システムの弱点は、堅牢なアライメントが達成困難である。
この問題に対処するために、改良されたDurIANベースの平均モデルをトレーニングすることでAdaDurIANを導入し、異なる話者間で共有話者非依存コンテンツエンコーダを用いて、少数ショット学習に活用する。
実験では、AdaDurIANがベースラインのエンド・ツー・エンドシステムよりも大きなマージンで性能を向上できることを示す。
主観評価では,AdaDurIANは自然性および話者類似性の嗜好において,高い平均世論スコア(MOS)を得ることが示された。
また、感情伝達タスクにAdaDurIANを適用し、その有望な性能を示す。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。