論文の概要: Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners
- arxiv url: http://arxiv.org/abs/2302.14523v1
- Date: Tue, 28 Feb 2023 12:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:32:59.145433
- Title: Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners
- Title(参考訳): RAD-TTSアライナを用いた自動ヘテロニム分解管
- Authors: Jocelyn Huang, Evelina Bakhturina, Oktai Tatanov
- Abstract要約: RAD-TTS Alignerをベースとしたパイプラインを提案する。
最適な発音は、各ヘテロニムの全ての候補を生成することで選択できる。
得られたラベルは、マルチステージとエンドツーエンドのG2Pシステムの両方で使用するトレーニングデータセットを作成するために使用することができる。
- 参考スコア(独自算出の注目度): 1.8211392259257588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grapheme-to-phoneme (G2P) transduction is part of the standard text-to-speech
(TTS) pipeline. However, G2P conversion is difficult for languages that contain
heteronyms -- words that have one spelling but can be pronounced in multiple
ways. G2P datasets with annotated heteronyms are limited in size and expensive
to create, as human labeling remains the primary method for heteronym
disambiguation. We propose a RAD-TTS Aligner-based pipeline to automatically
disambiguate heteronyms in datasets that contain both audio with text
transcripts. The best pronunciation can be chosen by generating all possible
candidates for each heteronym and scoring them with an Aligner model. The
resulting labels can be used to create training datasets for use in both
multi-stage and end-to-end G2P systems.
- Abstract(参考訳): Grapheme-to-phoneme (G2P) は、標準的なTTSパイプラインの一部である。
しかし、G2P変換はヘテロ語を含む言語では困難である。
注釈付きヘテロネムを持つG2Pデータセットはサイズが限られており、人間のラベル付けがヘテロネムの曖昧化の主要な方法であり、作成に費用がかかる。
我々はRAD-TTS Alignerベースのパイプラインを提案し、音声とテキストの書き起こしの両方を含むデータセットの異名を自動的に曖昧にする。
最適な発音は、各ヘテロニムの候補を全て生成し、Alignerモデルで評価することで選択できる。
得られたラベルは、マルチステージとエンドツーエンドのG2Pシステムの両方で使用するトレーニングデータセットを作成するために使用することができる。
関連論文リスト
- Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - The Effects of Input Type and Pronunciation Dictionary Usage in Transfer
Learning for Low-Resource Text-to-Speech [1.1852406625172218]
低音源言語(LRL)の音声合成における音声ラベルと音声特徴を言語間変換学習の入力として比較する。
FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。
論文 参考訳(メタデータ) (2023-06-01T10:42:56Z) - Better Sign Language Translation with Monolingual Data [6.845232643246564]
署名言語変換(SLT)システムは、大規模並列G2Tペアの可用性に大きく依存している。
本稿では,大規模対象のモノリンガルデータを擬似グルースに自動的に書き起こす簡易かつ効率的なルール変換法を提案する。
実験の結果,提案手法はSLTの性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-21T09:39:54Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。