論文の概要: Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects
- arxiv url: http://arxiv.org/abs/2104.04091v1
- Date: Thu, 8 Apr 2021 21:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:10:49.122659
- Title: Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects
- Title(参考訳): 移動学習方言に対するGrapheme-to-Phoneme変換モデル
- Authors: Eric Engelhart, Mahsa Elyasi, Gaurav Bharaj
- Abstract要約: Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
- 参考スコア(独自算出の注目度): 1.3786433185027864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grapheme-to-Phoneme (G2P) models convert words to their phonetic
pronunciations. Classic G2P methods include rule-based systems and
pronunciation dictionaries, while modern G2P systems incorporate learning, such
as, LSTM and Transformer-based attention models. Usually, dictionary-based
methods require significant manual effort to build, and have limited adaptivity
on unseen words. And transformer-based models require significant training
data, and do not generalize well, especially for dialects with limited data.
We propose a novel use of transformer-based attention model that can adapt to
unseen dialects of English language, while using a small dictionary. We show
that our method has potential applications for accent transfer for
text-to-speech, and for building robust G2P models for dialects with limited
pronunciation dictionary size.
We experiment with two English dialects: Indian and British. A model trained
from scratch using 1000 words from British English dictionary, with 14211 words
held out, leads to phoneme error rate (PER) of 26.877%, on a test set generated
using the full dictionary. The same model pretrained on CMUDict American
English dictionary, and fine-tuned on the same dataset leads to PER of 2.469%
on the test set.
- Abstract(参考訳): Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
古典的なG2P法はルールベースのシステムと発音辞書を含み、現代のG2P法はLSTMやTransformerベースのアテンションモデルなどの学習を取り入れている。
通常、辞書ベースの手法では、構築にかなりの手作業が必要であり、見当たらない単語への適応性は限られている。
そして、トランスフォーマーベースのモデルは、重要なトレーニングデータを必要とし、特に限られたデータを持つ方言では、うまく一般化しない。
英語の未熟な方言に適応するトランスフォーマティブ・アテンション・モデルを用いて,小型辞書を用いた新しい使用法を提案する。
本手法は,テキストから音声へのアクセント変換や,発音辞書サイズが制限された方言のロバストなg2pモデルの構築に応用できる可能性が示唆された。
私たちはインディアンとイギリス人の2つの英語方言を実験した。
イギリス英語辞書の1000語を用いてゼロから訓練されたモデルで、14211語が持たれると、完全な辞書を用いて生成されたテストセット上での音素誤り率(PER)は26.877%になる。
同じモデルはCMUDict American English Dictionaryで事前訓練され、同じデータセットで微調整され、PERはテストセットで2.469%となる。
関連論文リスト
- Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。