論文の概要: Non-native English lexicon creation for bilingual speech synthesis
- arxiv url: http://arxiv.org/abs/2106.10870v1
- Date: Mon, 21 Jun 2021 06:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:18:44.332458
- Title: Non-native English lexicon creation for bilingual speech synthesis
- Title(参考訳): バイリンガル音声合成のための非ネイティブ英語語彙生成
- Authors: Arun Baby, Pranav Jawale, Saranya Vinnaitherthan, Sumukh Badam,
Nagaraj Adiga, Sharath Adavanne
- Abstract要約: バイリンガル・テキスト・音声システムの知性は、非ネイティブ話者が使用する音素配列をキャプチャする語彙に依存する。
非ネイティブな英語辞書がないため、既存のバイリンガルTSシステムは、広く利用可能な英語辞書を使用している。
本稿では,母国英語の語彙を非母国語バージョンにマッピングするために,文字と音素のアライメントに基づく規則を得るための汎用的アプローチを提案する。
- 参考スコア(独自算出の注目度): 9.533867546985887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilingual English speakers speak English as one of their languages. Their
English is of a non-native kind, and their conversations are of a code-mixed
fashion. The intelligibility of a bilingual text-to-speech (TTS) system for
such non-native English speakers depends on a lexicon that captures the phoneme
sequence used by non-native speakers. However, due to the lack of non-native
English lexicon, existing bilingual TTS systems employ native English lexicons
that are widely available, in addition to their native language lexicon. Due to
the inconsistency between the non-native English pronunciation in the audio and
native English lexicon in the text, the intelligibility of synthesized speech
in such TTS systems is significantly reduced.
This paper is motivated by the knowledge that the native language of the
speaker highly influences non-native English pronunciation. We propose a
generic approach to obtain rules based on letter to phoneme alignment to map
native English lexicon to their non-native version. The effectiveness of such
mapping is studied by comparing bilingual (Indian English and Hindi) TTS
systems trained with and without the proposed rules. The subjective evaluation
shows that the bilingual TTS system trained with the proposed non-native
English lexicon rules obtains a 6% absolute improvement in preference.
- Abstract(参考訳): バイリンガル英語話者は彼らの言語の1つとして英語を話します。
彼らの英語は非ネイティブであり、彼らの会話はコードミキシング方式である。
非ネイティブな英語話者に対するバイリンガルテキスト音声(TTS)システムの知性は、非ネイティブな話者が使用する音素配列をキャプチャする語彙に依存する。
しかし、非ネイティブな英語語彙が欠如しているため、既存のバイリンガル TTS システムは、母語語彙に加えて、広く利用できる英語語彙を使用している。
音声中の非ネイティブ英語発音とテキスト中のネイティブ英語語彙の矛盾により、このようなTSシステムにおける合成音声の理解性が著しく低下する。
本論文は、話者の母国語が非母国英語の発音に強い影響を与えるという知識に動機付けられている。
本稿では,母語英語の語彙を非母語バージョンにマッピングするために,音素アライメントに対する文字に基づく規則を得るための汎用的手法を提案する。
このようなマッピングの有効性は、提案した規則と無条件で訓練されたバイリンガル (インド英語とヒンディー語) TTS システムを比較して検討する。
主観評価の結果,非母語英語レキシコン規則で学習したバイリンガルttsシステムは,6%の絶対的嗜好改善が得られた。
関連論文リスト
- Improving Pronunciation and Accent Conversion through Knowledge Distillation And Synthetic Ground-Truth from Native TTS [52.89324095217975]
アクセント変換に対する従来のアプローチは主に非ネイティブ音声をよりネイティブにすることを目的としていた。
我々は、アクセント変換だけでなく、非ネイティブアクセント話者の発音を改善する新しいACアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-19T06:12:31Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - Improve Bilingual TTS Using Dynamic Language and Phonology Embedding [10.244215079409797]
本稿では,中国語の単言語話者からより標準の英語音声を取得するために,マンダリン・イングリッシュ・TSシステムを構築した。
言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。
論文 参考訳(メタデータ) (2022-12-07T03:46:18Z) - Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering
the Effect of Language Transfer [4.675953329876724]
本稿では,音声認識における言語伝達の音韻効果について検討する。
英単語をマンダリン音声表現に変換するための語彙規則のセットが提案されている。
提案した語彙規則は一般化され、見当たらない英語の単語に直接適用することができる。
論文 参考訳(メタデータ) (2022-10-07T14:59:44Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Towards Natural Bilingual and Code-Switched Speech Synthesis Based on
Mix of Monolingual Recordings and Cross-Lingual Voice Conversion [28.830575877307176]
両方の言語でネイティブレベルの流布を実現する話者からバイリンガルコーパスを得るのは容易ではない。
タコトロン2に基づく音声変換システムを用いて、マンダリン話者の英語音声と英語話者のマンダリン音声を生成する。
得られたバイリンガルデータは、Transformerモデルを用いて合成されたコード切替発話で拡張される。
論文 参考訳(メタデータ) (2020-10-16T03:51:00Z) - Latent linguistic embedding for cross-lingual text-to-speech and voice
conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。
提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文 参考訳(メタデータ) (2020-10-08T01:25:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。