論文の概要: Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering
the Effect of Language Transfer
- arxiv url: http://arxiv.org/abs/2210.03603v1
- Date: Fri, 7 Oct 2022 14:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:26:07.529703
- Title: Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering
the Effect of Language Transfer
- Title(参考訳): 言語伝達の影響を考慮したマンダリンASR用外国語単語の発音モデリング
- Authors: Lei Wang, Rong Tong
- Abstract要約: 本稿では,音声認識における言語伝達の音韻効果について検討する。
英単語をマンダリン音声表現に変換するための語彙規則のセットが提案されている。
提案した語彙規則は一般化され、見当たらない英語の単語に直接適用することができる。
- 参考スコア(独自算出の注目度): 4.675953329876724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the challenges in automatic speech recognition is foreign words
recognition. It is observed that a speaker's pronunciation of a foreign word is
influenced by his native language knowledge, and such phenomenon is known as
the effect of language transfer. This paper focuses on examining the phonetic
effect of language transfer in automatic speech recognition. A set of lexical
rules is proposed to convert an English word into Mandarin phonetic
representation. In this way, a Mandarin lexicon can be augmented by including
English words. Hence, the Mandarin ASR system becomes capable to recognize
English words without retraining or re-estimation of the acoustic model
parameters. Using the lexicon that derived from the proposed rules, the ASR
performance of Mandarin English mixed speech is improved without harming the
accuracy of Mandarin only speech. The proposed lexical rules are generalized
and they can be directly applied to unseen English words.
- Abstract(参考訳): 自動音声認識の課題の1つは外国語音声認識である。
外国語話者の発音は、母語知識の影響を受けており、そのような現象は言語伝達の影響として知られている。
本稿では,音声認識における言語伝達の音声効果について検討する。
英単語をマンダリン音声表現に変換するための語彙規則のセットが提案されている。
このように、マンダリン辞書は英語の単語を含めることで拡張することができる。
したがって、マンダリンASRシステムは、音響モデルパラメータの再学習や再推定をすることなく、英語の単語を認識できるようになる。
提案した規則から導かれる語彙を用いて、マンダリン英語混合音声のASR性能を、マンダリン音声のみの精度を損なうことなく改善する。
提案した語彙規則は一般化され、見当たらない英語の単語に直接適用することができる。
関連論文リスト
- Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech [3.812148920168377]
本稿では,話者ダイアリゼーションと言語識別からなるケースケードシステムを提案する。
結果から,提案システムは低言語分類と言語ダイアリゼーション誤り率をしばしば達成することがわかった。
同時に、モノリンガル音声における音声認識に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2024-06-13T16:27:56Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Improve Bilingual TTS Using Dynamic Language and Phonology Embedding [10.244215079409797]
本稿では,中国語の単言語話者からより標準の英語音声を取得するために,マンダリン・イングリッシュ・TSシステムを構築した。
言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。
論文 参考訳(メタデータ) (2022-12-07T03:46:18Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - Improving Cross-lingual Speech Synthesis with Triplet Training Scheme [5.470211567548067]
言語間の発音を高めるために, トリプルト学習法を提案する。
提案手法は、合成した言語間音声の可知性と自然性の両方に顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-02-22T08:40:43Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Lexical Access Model for Italian -- Modeling human speech processing:
identification of words in running speech toward lexical access based on the
detection of landmarks and other acoustic cues to features [2.033475676482581]
本研究の目的は、発話中の単語を識別する際、人間を模倣するシステムを開発することである。
我々はスティーブンスの語彙アクセスモデルに基づくイタリア語の音声認識システムを構築した。
論文 参考訳(メタデータ) (2021-06-24T10:54:56Z) - Non-native English lexicon creation for bilingual speech synthesis [9.533867546985887]
バイリンガル・テキスト・音声システムの知性は、非ネイティブ話者が使用する音素配列をキャプチャする語彙に依存する。
非ネイティブな英語辞書がないため、既存のバイリンガルTSシステムは、広く利用可能な英語辞書を使用している。
本稿では,母国英語の語彙を非母国語バージョンにマッピングするために,文字と音素のアライメントに基づく規則を得るための汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2021-06-21T06:07:14Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。