論文の概要: Pronunciation Generation for Foreign Language Words in Intra-Sentential
Code-Switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2210.14691v1
- Date: Wed, 26 Oct 2022 13:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:35:14.910582
- Title: Pronunciation Generation for Foreign Language Words in Intra-Sentential
Code-Switching Speech Recognition
- Title(参考訳): 文内符号変換音声認識における外国語単語の発音生成
- Authors: Wei Wang, Chao Zhang and Xiaopei Wu
- Abstract要約: コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。
本稿では,限られたコードスイッチングデータを駆動材料として利用し,コードスイッチング認識技術を迅速に開発するためのショートカットを探索する。
- 参考スコア(独自算出の注目度): 14.024346215923972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-Switching refers to the phenomenon of switching languages within a
sentence or discourse. However, limited code-switching , different language
phoneme-sets and high rebuilding costs throw a challenge to make the
specialized acoustic model for code-switching speech recognition. In this
paper, we make use of limited code-switching data as driving materials and
explore a shortcut to quickly develop intra-sentential code-switching
recognition skill on the commissioned native language acoustic model, where we
propose a data-driven method to make the seed lexicon which is used to train
grapheme-to-phoneme model to predict mapping pronunciations for foreign
language word in code-switching sentences. The core work of the data-driven
technology in this paper consists of a phonetic decoding method and different
selection methods. And for imbalanced word-level driving materials problem, we
have an internal assistance inspiration that learning the good pronunciation
rules in the words that possess sufficient materials using the
grapheme-to-phoneme model to help the scarce. Our experiments show that the
Mixed Error Rate in intra-sentential Chinese-English code-switching recognition
reduced from 29.15\%, acquired on the pure Chinese recognizer, to 12.13\% by
adding foreign language words' pronunciation through our data-driven approach,
and finally get the best result 11.14\% with the combination of different
selection methods and internal assistance tactic.
- Abstract(参考訳): コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。
しかし、コードスイッチングの制限、異なる言語音素セット、高い再構成コストは、コードスイッチング音声認識のための特殊な音響モデルを作るための課題となる。
本稿では,限定的なコード切り換えデータを駆動材料として利用し,コード切り換え文中の外国語単語の発音を予測するために,grapheme-to-phonemeモデルを訓練する種レキシコンを作成するためのデータ駆動手法を提案する。
本論文におけるデータ駆動技術の中核となる仕事は、音声復号法と異なる選択法である。
そして,不均衡な単語レベルの駆動材料問題に対して,グラニュメから音素へのモデルを用いて十分な資料を有する単語の発音規則を学習することで,その不足を解消する内部支援を行う。
提案手法では,中国語の単語の発音をデータ駆動アプローチで加味することで,知覚的中国語-英語コード切替認識における混合誤り率が29.15\%から12.13\%に減少し,最終的に11.14\%の最適な結果を得ることができた。
関連論文リスト
- Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Exploring Retraining-Free Speech Recognition for Intra-sentential
Code-Switching [17.973043287866986]
本稿では,コードスイッチング(CS)音声認識システムの構築に向けた最初の取り組みについて述べる。
我々は外国語単語の高品質な発音を得るための自動アプローチを設計した。
従来の単言語ASRシステムで得られた単語誤り率を34.4%から55.5%削減する。
論文 参考訳(メタデータ) (2021-08-27T19:15:16Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。