論文の概要: XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations
for Text-to-Speech
- arxiv url: http://arxiv.org/abs/2305.19709v1
- Date: Wed, 31 May 2023 10:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:20:08.164941
- Title: XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations
for Text-to-Speech
- Title(参考訳): XPhoneBERT:テキスト音声の音素表現のための事前学習型多言語モデル
- Authors: Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen
- Abstract要約: 下流音声(TTS)タスクの音素表現を学習するために事前訓練された最初の多言語モデルXPhoneBERTを提案する。
私たちの XPhoneBERT は BERT-base と同じモデルアーキテクチャを持ち,約100言語および局所言語から330万音素レベルの文に対して,RoBERTa の事前学習アプローチを用いてトレーニングを行った。
- 参考スコア(独自算出の注目度): 15.254598796939922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present XPhoneBERT, the first multilingual model pre-trained to learn
phoneme representations for the downstream text-to-speech (TTS) task. Our
XPhoneBERT has the same model architecture as BERT-base, trained using the
RoBERTa pre-training approach on 330M phoneme-level sentences from nearly 100
languages and locales. Experimental results show that employing XPhoneBERT as
an input phoneme encoder significantly boosts the performance of a strong
neural TTS model in terms of naturalness and prosody and also helps produce
fairly high-quality speech with limited training data. We publicly release our
pre-trained XPhoneBERT with the hope that it would facilitate future research
and downstream TTS applications for multiple languages. Our XPhoneBERT model is
available at https://github.com/VinAIResearch/XPhoneBERT
- Abstract(参考訳): 下流音声(TTS)タスクの音素表現を学習するために事前訓練された最初の多言語モデルXPhoneBERTを提案する。
私たちの XPhoneBERT は BERT-base と同じモデルアーキテクチャを持ち,約100言語および局所言語から330万音素レベルの文に対して,RoBERTa の事前学習アプローチを用いてトレーニングを行った。
実験結果から, XPhoneBERT を入力音素エンコーダとして用いることにより, 自然性や韻律の面で強いニューラル TTS モデルの性能が著しく向上し, 訓練データに制限のあるかなり高品質な音声を生成できることが示唆された。
複数の言語に対する将来の研究と下流TTSアプリケーションの促進を期待して、事前訓練したXPhoneBERTを公開しています。
XPhoneBERTモデルはhttps://github.com/VinAIResearch/XPhoneBERTで利用可能です。
関連論文リスト
- Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech [104.65639892109381]
学習能力を高めるために,音素と音素の混合表現を用いたBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-03-31T17:12:26Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文 参考訳(メタデータ) (2020-03-02T10:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。