論文の概要: Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone
Mapping, Features Input, and Source Language Selection
- arxiv url: http://arxiv.org/abs/2306.12040v1
- Date: Wed, 21 Jun 2023 06:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 14:47:22.272187
- Title: Strategies in Transfer Learning for Low-Resource Speech Synthesis: Phone
Mapping, Features Input, and Source Language Selection
- Title(参考訳): 低リソース音声合成のためのトランスファー学習戦略--電話マッピング、特徴量入力、ソース言語選択
- Authors: Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
- Abstract要約: PHOIBLEベースの電話マッピング手法と低リソース言語におけるTTSの転送学習における音韻的特徴を比較検討する。
我々は、様々なソース言語(英語、フィンランド語、ヒンディー語、日本語、ロシア語)とターゲット言語(ブルガリア語、グルジア語、カザフ語、スワヒリ語、ウルドゥー語、ウズベク語)を使って、これらの手法の言語依存性をテストする。
- 参考スコア(独自算出の注目度): 1.1852406625172218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We compare using a PHOIBLE-based phone mapping method and using phonological
features input in transfer learning for TTS in low-resource languages. We use
diverse source languages (English, Finnish, Hindi, Japanese, and Russian) and
target languages (Bulgarian, Georgian, Kazakh, Swahili, Urdu, and Uzbek) to
test the language-independence of the methods and enhance the findings'
applicability. We use Character Error Rates from automatic speech recognition
and predicted Mean Opinion Scores for evaluation. Results show that both phone
mapping and features input improve the output quality and the latter performs
better, but these effects also depend on the specific language combination. We
also compare the recently-proposed Angular Similarity of Phone Frequencies
(ASPF) with a family tree-based distance measure as a criterion to select
source languages in transfer learning. ASPF proves effective if label-based
phone input is used, while the language distance does not have expected
effects.
- Abstract(参考訳): PHOIBLEベースの電話マッピング手法と低リソース言語におけるTSの転送学習における音韻的特徴を比較検討した。
我々は様々なソース言語(英語、フィンランド語、ヒンディー語、日本語、ロシア語)とターゲット言語(ブルガリア語、グルジア語、カザフ語、スワヒリ語、ウルドゥー語、ウズベク語)を用いて、手法の言語独立性をテストし、その結果の適用性を高める。
自動音声認識による文字誤り率と平均オピニオンスコアの予測値を用いて評価を行う。
結果から,音声マッピングと特徴量の両方が出力品質を向上し,後者が良好な結果を示すが,これらの効果は言語の組み合わせにも依存することがわかった。
また、最近提案したASPF(Angular similarity of Phone Frequencies)を、転送学習におけるソース言語の選択基準として、家系木に基づく距離尺度と比較した。
ASPFは、ラベルベースの電話入力を使用する場合、言語距離が期待できない場合、有効であることを示す。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Applying Phonological Features in Multilingual Text-To-Speech [2.567123525861164]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが、2つの言語でネイティブ、非ネイティブ、コードスイッチトされた音声の生成を成功させるかどうかを検証した。
論文 参考訳(メタデータ) (2021-10-07T16:37:01Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。