論文の概要: Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with
Articulatory Features
- arxiv url: http://arxiv.org/abs/2203.03191v1
- Date: Mon, 7 Mar 2022 07:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 15:20:32.229035
- Title: Language-Agnostic Meta-Learning for Low-Resource Text-to-Speech with
Articulatory Features
- Title(参考訳): 調音機能を有する低音源テキスト音声のための言語非依存メタラーニング
- Authors: Florian Lux, Ngoc Thang Vu
- Abstract要約: 本研究では,言語間で保持される音素表現を学習するために,音素の同一性から導かれる埋め込みではなく,調音ベクトルから導出される埋め込みを用いる。
これにより、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。
- 参考スコア(独自算出の注目度): 30.37026279162593
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While neural text-to-speech systems perform remarkably well in high-resource
scenarios, they cannot be applied to the majority of the over 6,000 spoken
languages in the world due to a lack of appropriate training data. In this
work, we use embeddings derived from articulatory vectors rather than
embeddings derived from phoneme identities to learn phoneme representations
that hold across languages. In conjunction with language agnostic meta
learning, this enables us to fine-tune a high-quality text-to-speech model on
just 30 minutes of data in a previously unseen language spoken by a previously
unseen speaker.
- Abstract(参考訳): ニューラル・テキスト・ツー・スパイチシステムは高リソースのシナリオでは著しく機能するが、適切なトレーニングデータがないため、世界中の6,000以上の音声言語の大部分に適用することはできない。
本研究では,言語間で保持される音素表現を学習するために,音素の同一性に由来する埋め込みよりも,調音ベクトルに由来する埋め込みを用いる。
言語に依存しないメタ学習と組み合わせることで、これまで見られなかった話者が話していた、30分間のデータで高品質なテキスト音声モデルを微調整できる。
関連論文リスト
- Meta Learning Text-to-Speech Synthesis in over 7000 Languages [29.17020696379219]
本研究では,7000以上の言語で音声を生成できる1つの音声合成システムを構築する上で,課題に取り組む。
本手法は,多言語事前学習とメタラーニングの新たな統合を活用することで,ゼロショット音声合成を利用可能なデータを持たない言語で実現する。
我々は,限られた言語資源を持つコミュニティの活性化と,音声技術分野におけるさらなるイノベーションの育成を目指している。
論文 参考訳(メタデータ) (2024-06-10T15:56:52Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。