論文の概要: Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings
- arxiv url: http://arxiv.org/abs/2307.16643v1
- Date: Mon, 31 Jul 2023 13:25:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 14:31:38.887448
- Title: Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings
- Title(参考訳): 音声記録からの発音学習による音素変換の改善
- Authors: Manuel Sam Ribeiro, Giulia Comini, Jaime Lorenzo-Trueba
- Abstract要約: Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
- 参考スコア(独自算出の注目度): 12.669655363646257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Grapheme-to-Phoneme (G2P) task aims to convert orthographic input into a
discrete phonetic representation. G2P conversion is beneficial to various
speech processing applications, such as text-to-speech and speech recognition.
However, these tend to rely on manually-annotated pronunciation dictionaries,
which are often time-consuming and costly to acquire. In this paper, we propose
a method to improve the G2P conversion task by learning pronunciation examples
from audio recordings. Our approach bootstraps a G2P with a small set of
annotated examples. The G2P model is used to train a multilingual phone
recognition system, which then decodes speech recordings with a phonetic
representation. Given hypothesized phoneme labels, we learn pronunciation
dictionaries for out-of-vocabulary words, and we use those to re-train the G2P
system. Results indicate that our approach consistently improves the phone
error rate of G2P systems across languages and amount of available data.
- Abstract(参考訳): Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
G2P変換は、テキスト音声や音声認識などの様々な音声処理アプリケーションに有用である。
しかし、これらは手書きの発音辞書に頼りがちで、しばしば時間がかかり、入手するのにコストがかかる。
本稿では,音声録音から発音例を学習することで,G2P変換タスクを改善する手法を提案する。
我々のアプローチは、アノテーション付きの小さな例でg2pをブートストラップする。
G2Pモデルは多言語音声認識システムの訓練に使用され、音声表現で音声記録を復号する。
仮定音素ラベルを考慮し,語彙外単語の発音辞書を学習し,これらを用いてG2Pシステムを再学習する。
提案手法は,G2Pシステムの言語間誤り率と利用可能なデータ量を大幅に改善することを示す。
関連論文リスト
- AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - The Effects of Input Type and Pronunciation Dictionary Usage in Transfer
Learning for Low-Resource Text-to-Speech [1.1852406625172218]
低音源言語(LRL)の音声合成における音声ラベルと音声特徴を言語間変換学習の入力として比較する。
FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。
論文 参考訳(メタデータ) (2023-06-01T10:42:56Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation [32.75866643254402]
ニューラルG2Pモデルはスペルミスのようなグラフエムの正書法の変化に対して極めて敏感であることを示す。
雑音の多い学習データを合成するための3つの制御ノイズ導入法を提案する。
文脈情報をベースラインに組み込んで,トレーニングプロセスの安定化のための堅牢なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:29:30Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。