論文の概要: SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation
- arxiv url: http://arxiv.org/abs/2207.13703v1
- Date: Wed, 27 Jul 2022 01:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 13:02:56.679734
- Title: SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation
- Title(参考訳): SoundChoice:セマンティックな曖昧さを伴うGrapheme-to-Phonemeモデル
- Authors: Artem Ploujnikov, Mirco Ravanelli
- Abstract要約: 本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
- 参考スコア(独自算出の注目度): 10.016862617549991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end speech synthesis models directly convert the input characters into
an audio representation (e.g., spectrograms). Despite their impressive
performance, such models have difficulty disambiguating the pronunciations of
identically spelled words. To mitigate this issue, a separate
Grapheme-to-Phoneme (G2P) model can be employed to convert the characters into
phonemes before synthesizing the audio. This paper proposes SoundChoice, a
novel G2P architecture that processes entire sentences rather than operating at
the word level. The proposed architecture takes advantage of a weighted
homograph loss (that improves disambiguation), exploits curriculum learning
(that gradually switches from word-level to sentence-level G2P), and integrates
word embeddings from BERT (for further performance improvement). Moreover, the
model inherits the best practices in speech recognition, including multi-task
learning with Connectionist Temporal Classification (CTC) and beam search with
an embedded language model. As a result, SoundChoice achieves a Phoneme Error
Rate (PER) of 2.65% on whole-sentence transcription using data from LibriSpeech
and Wikipedia. Index Terms grapheme-to-phoneme, speech synthesis,
text-tospeech, phonetics, pronunciation, disambiguation.
- Abstract(参考訳): エンドツーエンドの音声合成モデルは、入力文字を直接音声表現に変換する(例えば、分光図)。
印象的な性能にもかかわらず、同じ綴りの単語の発音を曖昧にすることは困難である。
この問題を緩和するために、音声を合成する前に文字を音素に変換するために別のGrapheme-to-Phoneme(G2P)モデルを用いることができる。
本稿では,単語レベルでではなく文全体を処理できる新しいg2pアーキテクチャであるsoundchoiceを提案する。
提案アーキテクチャは、重み付けされたホモグラフ損失(曖昧さを改善する)を活用し、カリキュラム学習(単語レベルから文レベルG2Pに徐々に切り替える)を活用し、BERTからの単語埋め込みを統合する(さらなる性能向上)。
さらに,接続型時空間分類(ctc)によるマルチタスク学習や,組み込み言語モデルを用いたビーム探索など,音声認識のベストプラクティスを継承する。
その結果、SoundChoiceはLibriSpeechとWikipediaのデータを用いて全文の書き起こしにおいて2.65%のPhoneme Error Rate(PER)を達成した。
Index Terms grapheme-to-phoneme, speech synthesis, text-tospeech, phonetics, pronunciation, disambiguation。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion [1.5020330976600735]
ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:15:51Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects [1.3786433185027864]
Grapheme-to-Phoneme(G2P)モデルは、単語を発音に変換する。
通常、辞書ベースの手法は構築にかなりの手作業を必要とし、目に見えない単語への適応性が制限されている。
本研究では,小さな辞書を用いながら,目に見えない英語の方言に適応するトランスフォーマーに基づく注意モデルを提案する。
論文 参考訳(メタデータ) (2021-04-08T21:36:21Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。