論文の概要: Phonetically rich corpus construction for a low-resourced language
- arxiv url: http://arxiv.org/abs/2402.05794v1
- Date: Thu, 8 Feb 2024 16:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:15:51.748874
- Title: Phonetically rich corpus construction for a low-resourced language
- Title(参考訳): 低語源言語のための音韻豊かなコーパス構成
- Authors: Marcellus Amadeus and William Alberto Cruz Casta\~neda and Wilmer
Lobato and Niasche Aquino
- Abstract要約: 本稿では,低音源言語に対する幅広い音声カバレッジを持つテキストコーパスを作成するための新しい手法を提案する。
提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。
アルゴリズムを用いて、同様のサイズのサンプルに対して、異なるトリフォンの比率が55.8%向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech technologies rely on capturing a speaker's voice variability while
obtaining comprehensive language information. Textual prompts and sentence
selection methods have been proposed in the literature to comprise such
adequate phonetic data, referred to as a phonetically rich \textit{corpus}.
However, they are still insufficient for acoustic modeling, especially critical
for languages with limited resources. Hence, this paper proposes a novel
approach and outlines the methodological aspects required to create a
\textit{corpus} with broad phonetic coverage for a low-resourced language,
Brazilian Portuguese. Our methodology includes text dataset collection up to a
sentence selection algorithm based on triphone distribution. Furthermore, we
propose a new phonemic classification according to acoustic-articulatory speech
features since the absolute number of distinct triphones, or low-probability
triphones, does not guarantee an adequate representation of every possible
combination. Using our algorithm, we achieve a 55.8\% higher percentage of
distinct triphones -- for samples of similar size -- while the currently
available phonetic-rich corpus, CETUC and TTS-Portuguese, 12.6\% and 12.3\% in
comparison to a non-phonetically rich dataset.
- Abstract(参考訳): 音声技術は、包括的言語情報を取得しながら話者の声の変動を捉えることに依存する。
文献において、このような適切な音声データを構成するために、テキストプロンプトと文選択法が提案されている。
しかし、音響モデリングにはまだ不十分であり、資源が限られている言語には特に重要である。
そこで,本稿では,ブラジルポルトガル語の低リソース言語に対する幅広い音声カバレッジを持つ「textit{corpus}」の作成に必要な方法論的側面を概説する。
提案手法は,三声分布に基づく文選択アルゴリズムまでのテキストデータセットの収集を含む。
さらに, 分離三音節や低確率三音節の絶対個数が, 可能なすべての組み合わせの適切な表現を保証できないため, 音響-調音音声の特徴に応じた新たな音韻分類を提案する。
我々のアルゴリズムを用いて、同じ大きさのサンプルに対して、55.8\%の異なるトリフォンを、現在利用可能な音声に富んだコーパスであるCETUCとTS-Portugueseは、非音声に富んだデータセットと比較して12.6\%と12.3\%を達成する。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Distribution augmentation for low-resource expressive text-to-speech [18.553812159109253]
本稿では,TTS(text-to-speech)のための新しいデータ拡張手法を提案する。
追加データを必要とすることなく、新たな(テキスト、オーディオ)トレーニング例を生成することができる。
論文 参考訳(メタデータ) (2022-02-13T21:19:31Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Improve Cross-lingual Voice Cloning Using Low-quality Code-switched Data [11.18504333789534]
そこで本研究では,非対象話者からの低品質なコード切替データを用いて,対象話者に対する言語間音声のクローニングを実現することを提案する。
実験により,提案手法は,自然性と話者の整合性の両面から,目標音声における高品質なコードスイッチ音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2021-10-14T08:16:06Z) - Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken
Language Learners [11.190877290770047]
本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。
このフレームワークは、極端に低リソースのシナリオ下で、様々な新しい言語に適応する能力を示す。
多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T08:41:45Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。