論文の概要: r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation
- arxiv url: http://arxiv.org/abs/2202.11194v1
- Date: Mon, 21 Feb 2022 13:29:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 08:06:10.602039
- Title: r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation
- Title(参考訳): r-g2p:制御雑音導入と文脈情報の導入による音素変換に対するグラフムのロバスト性の評価と向上
- Authors: Chendong Zhao, Jianzong Wang, Xiaoyang Qu, Haoqian Wang, Jing Xiao
- Abstract要約: ニューラルG2Pモデルはスペルミスのようなグラフエムの正書法の変化に対して極めて敏感であることを示す。
雑音の多い学習データを合成するための3つの制御ノイズ導入法を提案する。
文脈情報をベースラインに組み込んで,トレーニングプロセスの安定化のための堅牢なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 32.75866643254402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grapheme-to-phoneme (G2P) conversion is the process of converting the written
form of words to their pronunciations. It has an important role for
text-to-speech (TTS) synthesis and automatic speech recognition (ASR) systems.
In this paper, we aim to evaluate and enhance the robustness of G2P models. We
show that neural G2P models are extremely sensitive to orthographical
variations in graphemes like spelling mistakes. To solve this problem, we
propose three controlled noise introducing methods to synthesize noisy training
data. Moreover, we incorporate the contextual information with the baseline and
propose a robust training strategy to stabilize the training process. The
experimental results demonstrate that our proposed robust G2P model (r-G2P)
outperforms the baseline significantly (-2.73\% WER on Dict-based benchmarks
and -9.09\% WER on Real-world sources).
- Abstract(参考訳): Grapheme-to-phoneme (G2P)変換は、単語の書式を発音に変換する過程である。
テキスト音声合成(TTS)と自動音声認識(ASR)システムにおいて重要な役割を持つ。
本稿では,G2Pモデルのロバスト性を評価することを目的とする。
ニューラルg2pモデルは綴りミスのようなグラフの正書法的変化に非常に敏感である。
そこで本研究では,騒音学習データを合成する3つの制御雑音導入手法を提案する。
さらに,文脈情報をベースラインに組み込んで,トレーニングプロセスを安定化するための堅牢なトレーニング戦略を提案する。
実験の結果,提案したロバストなG2Pモデル(r-G2P)は,Dctベースのベンチマークでは-2.73 % WER,Real-worldソースでは-9.09 % WER)よりも有意に優れていた。
関連論文リスト
- Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - One Model to Pronounce Them All: Multilingual Grapheme-to-Phoneme
Conversion With a Transformer Ensemble [0.0]
モデルアンサンブルを多言語トランスフォーマーと自己学習に応用し、15言語のための高効率なG2Pソリューションを開発するための簡単なアプローチについて述べる。
最良モデルでは14.99ワード誤り率(WER)と3.30音素誤り率(PER)が達成され,共有タスク競合ベースラインよりも大幅に改善された。
論文 参考訳(メタデータ) (2020-06-23T21:28:28Z) - Transformer based Grapheme-to-Phoneme Conversion [0.9023847175654603]
本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。
我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。
その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-04-14T07:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。