論文の概要: A Language Modeling Approach to Diacritic-Free Hebrew TTS
- arxiv url: http://arxiv.org/abs/2407.12206v1
- Date: Tue, 16 Jul 2024 22:43:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:58:45.425244
- Title: A Language Modeling Approach to Diacritic-Free Hebrew TTS
- Title(参考訳): 発音自由ヘブライ語TSに対する言語モデリング手法
- Authors: Amit Roth, Arnon Turetzky, Yossi Adi,
- Abstract要約: 我々はヘブライ語におけるテキスト音声(TTS)の課題に取り組む。
伝統的なヘブライ語には、個人が与えられた言葉を発音する方法を規定するダイアクリティカル語が含まれている。
現代ヘブライ語におけるダイアクリティカルな発音の欠如は、読者が正しい発音を結論付けることを期待する結果となった。
- 参考スコア(独自算出の注目度): 21.51896995655732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the task of text-to-speech (TTS) in Hebrew. Traditional Hebrew contains Diacritics, which dictate the way individuals should pronounce given words, however, modern Hebrew rarely uses them. The lack of diacritics in modern Hebrew results in readers expected to conclude the correct pronunciation and understand which phonemes to use based on the context. This imposes a fundamental challenge on TTS systems to accurately map between text-to-speech. In this work, we propose to adopt a language modeling Diacritics-Free approach, for the task of Hebrew TTS. The model operates on discrete speech representations and is conditioned on a word-piece tokenizer. We optimize the proposed method using in-the-wild weakly supervised data and compare it to several diacritic-based TTS systems. Results suggest the proposed method is superior to the evaluated baselines considering both content preservation and naturalness of the generated speech. Samples can be found under the following link: pages.cs.huji.ac.il/adiyoss-lab/HebTTS/
- Abstract(参考訳): 我々はヘブライ語におけるテキスト音声(TTS)の課題に取り組む。
伝統的なヘブライ語には、個人が与えられた言葉を発音する方法を指示するダイアクリティカル語が含まれているが、現代のヘブライ語ではほとんど使われていない。
現代のヘブライ語における発音学の欠如は、読者が正しい発音を結論付け、文脈に基づいてどの音素を使うべきかを理解することを期待する結果となった。
これにより、TSシステムにテキストから音声への正確なマッピングを行うという根本的な課題が生じる。
本研究では,Hubrew TTSの課題に対して,言語モデリングのダイアクリティカルスフリーアプローチを採用することを提案する。
モデルは個別の音声表現で動作し、ワードピーストークン化器で条件付けされる。
本稿では,弱教師付きデータを用いて提案手法を最適化し,複数のダイアクリティカルベースTSシステムと比較する。
その結果,提案手法は,生成音声の内容保存と自然性の両方を考慮した評価ベースラインよりも優れていることが示唆された。
page.cs.huji.ac.il/adiyoss-lab/HebTTS/
関連論文リスト
- MenakBERT -- Hebrew Diacriticizer [0.13654846342364307]
我々はヘブライ語文で事前訓練された文字レベル変換器であるMenakBERTを紹介し、ヘブライ語文のダイアクリティカルマークを生成するよう微調整した。
本稿では,音声タグ付けなどのタスクへの移動を記述するためのモデルがいかに微調整されているかを示す。
論文 参考訳(メタデータ) (2024-10-03T12:07:34Z) - Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT [29.167336994990542]
クロス・ディレクト・テキスト・トゥ・スペーチ(CD-TTS)は、非ネイティブ方言における学習された話者の声を合成するタスクである。
本稿では,3つのサブモジュールからなる新しいTSモデルを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:40:27Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Controllable Emphasis with zero data for text-to-speech [57.12383531339368]
強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。
これは自然度を7.3%向上させるスペクトログラム修正手法よりもはるかに優れていることを示し、基準女性のen-US音声に対して、文章中の強調された単語の正しさを40%精度で識別する。
論文 参考訳(メタデータ) (2023-07-13T21:06:23Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Scalable Multilingual Frontend for TTS [4.1203601403593275]
本稿では、多くの言語に対応し、新しい言語に容易に拡張可能な、ニューラルテキスト・トゥ・スペーチ(TTS)フロントエンド作成の進捗について述べる。
文レベルでの正規化と発音の両方をS2S(Sequence-to-Sequence)モデルを用いて構築し,モデル化する。
言語に依存しない発音アプローチでは、辞書は使用しません。代わりに、文脈ベースの発音を含む全ての発音がS2Sモデルでキャプチャされます。
論文 参考訳(メタデータ) (2020-04-10T08:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。