論文の概要: One Model to Pronounce Them All: Multilingual Grapheme-to-Phoneme
Conversion With a Transformer Ensemble
- arxiv url: http://arxiv.org/abs/2006.13343v1
- Date: Tue, 23 Jun 2020 21:28:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 22:59:39.846855
- Title: One Model to Pronounce Them All: Multilingual Grapheme-to-Phoneme
Conversion With a Transformer Ensemble
- Title(参考訳): 変圧器アンサンブルを用いた多言語Grapheme-to-Phoneme変換の一モデル
- Authors: Kaili Vesik (1), Muhammad Abdul-Mageed (1), Miikka Silfverberg (1)
((1) The University of British Columbia)
- Abstract要約: モデルアンサンブルを多言語トランスフォーマーと自己学習に応用し、15言語のための高効率なG2Pソリューションを開発するための簡単なアプローチについて述べる。
最良モデルでは14.99ワード誤り率(WER)と3.30音素誤り率(PER)が達成され,共有タスク競合ベースラインよりも大幅に改善された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of grapheme-to-phoneme (G2P) conversion is important for both speech
recognition and synthesis. Similar to other speech and language processing
tasks, in a scenario where only small-sized training data are available,
learning G2P models is challenging. We describe a simple approach of exploiting
model ensembles, based on multilingual Transformers and self-training, to
develop a highly effective G2P solution for 15 languages. Our models are
developed as part of our participation in the SIGMORPHON 2020 Shared Task 1
focused at G2P. Our best models achieve 14.99 word error rate (WER) and 3.30
phoneme error rate (PER), a sizeable improvement over the shared task
competitive baselines.
- Abstract(参考訳): G2P変換の課題は音声認識と合成の両方において重要である。
他の音声や言語処理タスクと同様に、小規模のトレーニングデータしか利用できないシナリオでは、g2pモデルの学習が難しい。
モデルアンサンブルを多言語トランスフォーマーと自己学習に応用し、15言語のための高効率なG2Pソリューションを開発するための簡単なアプローチについて述べる。
我々のモデルは、G2Pに焦点を当てたSIGMORPHON 2020 Shared Task 1への参加の一環として開発されました。
最良モデルでは14.99ワード誤り率(WER)と3.30音素誤り率(PER)が達成され,共有タスク競合ベースラインよりも大幅に改善された。
関連論文リスト
- MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - BatGPT: A Bidirectional Autoregessive Talker from Generative Pre-trained
Transformer [77.28871523946418]
BatGPTは武漢大学と上海江東大学が共同で設計・訓練した大規模言語モデルである。
テキストプロンプト、画像、オーディオなど、さまざまなタイプの入力に応答して、非常に自然で、流動的なテキストを生成することができる。
論文 参考訳(メタデータ) (2023-07-01T15:10:01Z) - ByT5 model for massively multilingual grapheme-to-phoneme conversion [13.672109728462663]
ByT5をベースとしたG2Pモデルを実装することで,多言語グラフから音素への変換を実現する。
バイトレベルの入力で動作する ByT5 は,多言語G2P でトークンベースの mT5 モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-04-06T20:03:38Z) - r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation [32.75866643254402]
ニューラルG2Pモデルはスペルミスのようなグラフエムの正書法の変化に対して極めて敏感であることを示す。
雑音の多い学習データを合成するための3つの制御ノイズ導入法を提案する。
文脈情報をベースラインに組み込んで,トレーニングプロセスの安定化のための堅牢なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:29:30Z) - Neural Grapheme-to-Phoneme Conversion with Pre-trained Grapheme Models [35.60380484684335]
本稿では,Grapheme BERT (GBERT) と呼ばれる事前学習型Graphemeモデルを提案する。
GBERTは、グラフ情報しか持たない大きな言語固有の単語リスト上で、自己教師型トレーニングによって構築される。
GBERTを最先端のTransformerベースのG2Pモデルに組み込むための2つのアプローチが開発されている。
論文 参考訳(メタデータ) (2022-01-26T02:49:56Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Optimus: Organizing Sentences via Pre-trained Modeling of a Latent Space [109.79957125584252]
変分オートエンコーダ(VAE)は、強力な生成モデルであり、自然言語の効果的な表現学習フレームワークである。
本稿では,最初の大規模言語VAEモデルであるOptimusを提案する。
論文 参考訳(メタデータ) (2020-04-05T06:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。