論文の概要: Transformer based Grapheme-to-Phoneme Conversion
- arxiv url: http://arxiv.org/abs/2004.06338v2
- Date: Fri, 26 Jun 2020 21:09:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:04:12.201462
- Title: Transformer based Grapheme-to-Phoneme Conversion
- Title(参考訳): トランスベースグラニュムから音素への変換
- Authors: Sevinj Yolchuyeva, G\'eza N\'emeth, B\'alint Gyires-T\'oth
- Abstract要約: 本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。
我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。
その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 0.9023847175654603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanism is one of the most successful techniques in deep learning
based Natural Language Processing (NLP). The transformer network architecture
is completely based on attention mechanisms, and it outperforms
sequence-to-sequence models in neural machine translation without recurrent and
convolutional layers. Grapheme-to-phoneme (G2P) conversion is a task of
converting letters (grapheme sequence) to their pronunciations (phoneme
sequence). It plays a significant role in text-to-speech (TTS) and automatic
speech recognition (ASR) systems. In this paper, we investigate the application
of transformer architecture to G2P conversion and compare its performance with
recurrent and convolutional neural network based approaches. Phoneme and word
error rates are evaluated on the CMUDict dataset for US English and the NetTalk
dataset. The results show that transformer based G2P outperforms the
convolutional-based approach in terms of word error rate and our results
significantly exceeded previous recurrent approaches (without attention)
regarding word and phoneme error rates on both datasets. Furthermore, the size
of the proposed model is much smaller than the size of the previous approaches.
- Abstract(参考訳): 注意機構は、ディープラーニングベースの自然言語処理(NLP)において最も成功した技術の一つである。
トランスフォーマーネットワークアーキテクチャは完全に注意機構に基づいており、リカレント層や畳み込み層を必要とせず、ニューラルネットワーク翻訳におけるシーケンス-シーケンスモデルよりも優れています。
Grapheme-to-phoneme (G2P) 変換は、文字 (grapheme sequence) を発音 (phoneme sequence) に変換するタスクである。
テキスト音声(TTS)と自動音声認識(ASR)システムにおいて重要な役割を果たす。
本稿では,g2p変換へのトランスフォーマティブ・アーキテクチャの適用について検討し,その性能を再帰的および畳み込み型ニューラルネットワークによる手法と比較する。
米国英語のCMUDictデータセットとNetTalkデータセットで,音素と単語の誤り率を評価する。
以上の結果から,トランスフォーマのg2pは,単語誤り率の点で畳み込みに基づくアプローチを上回っており,従来の2つのデータセットにおける単語誤り率と音素誤り率(注意を払わずに)を大きく上回った。
さらに,提案モデルのサイズは,従来のアプローチよりもはるかに小さい。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Transformers meet Neural Algorithmic Reasoners [16.5785372289558]
我々は、トランスフォーマー言語理解とグラフニューラルネットワーク(GNN)に基づくニューラルネットワーク推論(NAR)の堅牢性を組み合わせた新しいアプローチを提案する。
CLRS-30ベンチマークのテキストベースバージョンであるCLRS-Text上で得られたTransNARモデルを評価し,アルゴリズム推論のためのTransformerのみのモデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-13T16:42:06Z) - LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion [18.83348872103488]
Grapheme-to-phoneme (G2P) は文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションのシナリオに制限がある。
本稿では,高速で軽量で理論的に並列なLiteG2Pを提案する。
論文 参考訳(メタデータ) (2023-03-02T09:16:21Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformer Based Deliberation for Two-Pass Speech Recognition [46.86118010771703]
音声認識システムは、単語を素早く生成し、正確な結果を生成する必要がある。
2つのパスモデルは、単語を素早く出力する1次パスデコーダと、よりコンテキストを必要とするがより正確である2次パスデコーダを使用することで、これらの要求に優れる。
以前は、議論ネットワークが効果的な第2パスモデルになり得ることが証明されていた。
論文 参考訳(メタデータ) (2021-01-27T18:05:22Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Deep Transformer based Data Augmentation with Subword Units for
Morphologically Rich Online ASR [0.0]
ディープトランスフォーマーモデルは、ASRの言語モデリングタスクにおいて特に強力であることが証明されている。
近年の研究では、ニューラルネットワーク言語モデル(LM)の知識の大部分は、ニューラルテキスト生成に基づくデータ拡張を用いて従来のn-gramに転送可能であることが示されている。
トランスフォーマー生成したテキストによるデータ拡張は、孤立言語ではうまく機能するが、形態的にリッチな言語では語彙が爆発する。
そこで我々は,生成したテキストを統計的に派生したサブワードに再学習する,サブワードベースのニューラルテキスト拡張法を提案する。
論文 参考訳(メタデータ) (2020-07-14T10:22:05Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。