論文の概要: Applying Phonological Features in Multilingual Text-To-Speech
- arxiv url: http://arxiv.org/abs/2110.03609v2
- Date: Sun, 10 Oct 2021 11:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 13:07:39.481472
- Title: Applying Phonological Features in Multilingual Text-To-Speech
- Title(参考訳): 多言語テキスト音声における音韻的特徴の適用
- Authors: Cong Zhang, Huinan Zeng, Huang Liu, Jiewen Zheng
- Abstract要約: ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが、2つの言語でネイティブ、非ネイティブ、コードスイッチトされた音声の生成を成功させるかどうかを検証した。
- 参考スコア(独自算出の注目度): 2.567123525861164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates whether phonological features can be applied in
text-to-speech systems to generate native and non-native speech in English and
Mandarin. We present a mapping of ARPABET/pinyin to SAMPA/SAMPA-SC and then to
phonological features. We tested whether this mapping could lead to the
successful generation of native, non-native, and code-switched speech in the
two languages. We ran two experiments, one with a small dataset and one with a
larger dataset. The results proved that phonological features could be used as
a feasible input system, although further investigation is needed to improve
model performance. The accented output generated by the TTS models also helps
with understanding human second language acquisition processes.
- Abstract(参考訳): 本研究は,音声合成システムにおいて音声特徴を応用し,英語と中国語の母語・非母語音声を生成することができるかを検討するものである。
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングが2つの言語におけるネイティブ、非ネイティブ、コード切り換え音声の生成に繋がるかどうかをテストした。
1つは小さなデータセット、もう1つはより大きなデータセットです。
その結果, 音韻的特徴を入力システムとして利用できることを示したが, モデル性能の向上にはさらなる検討が必要である。
TTSモデルによって生成されるアクセント付き出力は、人間の第2言語獲得プロセスの理解にも役立ちます。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - Investigation of learning abilities on linguistic features in
sequence-to-sequence text-to-speech synthesis [48.151894340550385]
ニューラルシークエンス・ツー・シークエンス・テキスト・トゥ・音声合成(TTS)は、テキストや音素のような単純な言語的特徴から直接高品質な音声を生成することができる。
ニューラルシークエンス・ツー・シークエンス TTS が日本語と英語でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-20T23:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。