論文の概要: Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion
- arxiv url: http://arxiv.org/abs/2006.14194v2
- Date: Sun, 28 Jun 2020 23:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:57:02.168243
- Title: Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion
- Title(参考訳): 多言語grapheme-to-phoneme変換のためのニューラルマシン翻訳
- Authors: Alex Sokolov, Tracy Rohlin, Ariya Rastrow
- Abstract要約: 複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
- 参考スコア(独自算出の注目度): 13.543705472805431
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Grapheme-to-phoneme (G2P) models are a key component in Automatic Speech
Recognition (ASR) systems, such as the ASR system in Alexa, as they are used to
generate pronunciations for out-of-vocabulary words that do not exist in the
pronunciation lexicons (mappings like "e c h o" to "E k oU"). Most G2P systems
are monolingual and based on traditional joint-sequence based n-gram models
[1,2]. As an alternative, we present a single end-to-end trained neural G2P
model that shares same encoder and decoder across multiple languages. This
allows the model to utilize a combination of universal symbol inventories of
Latin-like alphabets and cross-linguistically shared feature representations.
Such model is especially useful in the scenarios of low resource languages and
code switching/foreign words, where the pronunciations in one language need to
be adapted to other locales or accents. We further experiment with word
language distribution vector as an additional training target in order to
improve system performance by helping the model decouple pronunciations across
a variety of languages in the parameter space. We show 7.2% average improvement
in phoneme error rate over low resource languages and no degradation over high
resource ones compared to monolingual baselines.
- Abstract(参考訳): Grapheme-to-phoneme(G2P)モデルは、AlexaのASRシステムのような自動音声認識(ASR)システムにおいて、発音レキシコンに存在しない語彙外単語(e c h o" から "E k oU" のようなマッピング)の発音を生成するために使用される重要なコンポーネントである。
ほとんどのg2pシステムは単言語であり、従来のジョイントシーケンスベースのn-gramモデル [1,2] に基づいている。
代替として、複数の言語で同じエンコーダとデコーダを共有する単一のエンドツーエンドトレーニングニューラルネットワークG2Pモデルを提案する。
これにより、モデルはラテン文字のような普遍的な記号表象とクロス言語的共有特徴表現の組み合わせを利用することができる。
このようなモデルは、低リソース言語やコード切り替え/外部語のシナリオにおいて特に有用であり、ある言語の発音は他のローカル語やアクセントに適応する必要がある。
さらに,パラメータ空間内の様々な言語にまたがる発音の分離を支援することで,システム性能を向上させるための学習目標として,単語言語分布ベクトルを実験する。
低リソース言語に対する音素誤り率の平均改善率は7.2%であり、単言語ベースラインと比較して高リソース言語よりも劣化しない。
関連論文リスト
- A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Improved acoustic word embeddings for zero-resource languages using
multilingual transfer [37.78342106714364]
我々は、ラベル付きデータに対する複数の良質な言語からの単一の教師付き埋め込みモデルを訓練し、それを目に見えないゼロ・リソース言語に適用する。
本稿では,3つのマルチリンガルリカレントニューラルネットワーク(RNN)モデルについて考察する。全ての訓練言語の連接語彙に基づいて訓練された分類器,複数言語から同一語と異なる単語を識別する訓練されたシームズRNN,単語ペアを再構成する訓練された対応オートエンコーダ(CAE)RNNである。
これらのモデルは、ゼロリソース言語自体で訓練された最先端の教師なしモデルよりも優れており、平均精度が30%以上向上している。
論文 参考訳(メタデータ) (2020-06-02T12:28:34Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。