論文の概要: Improving TTS for Shanghainese: Addressing Tone Sandhi via Word
Segmentation
- arxiv url: http://arxiv.org/abs/2307.16199v1
- Date: Sun, 30 Jul 2023 10:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:08:09.203467
- Title: Improving TTS for Shanghainese: Addressing Tone Sandhi via Word
Segmentation
- Title(参考訳): 上海のTTS改善--単語セグメンテーションによるトーンサンディーへの取り組み
- Authors: Yuanhao Chen
- Abstract要約: 上海のすべての多音節語に当てはまるトーンサンディーは、自然に聞こえる音声の鍵となる。
AppleのVoiceOverのようなShanghainese TTS(text-to-speech)に関する最近の研究は、トーンサンディーによるパフォーマンスの低さを示している。
テキスト前処理中の単語セグメンテーションにより,TSモデルにおける音色サンディ生成の品質が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tone is a crucial component of the prosody of Shanghainese, a Wu Chinese
variety spoken primarily in urban Shanghai. Tone sandhi, which applies to all
multi-syllabic words in Shanghainese, then, is key to natural-sounding speech.
Unfortunately, recent work on Shanghainese TTS (text-to-speech) such as Apple's
VoiceOver has shown poor performance with tone sandhi, especially LD
(left-dominant sandhi). Here I show that word segmentation during text
preprocessing can improve the quality of tone sandhi production in TTS models.
Syllables within the same word are annotated with a special symbol, which
serves as a proxy for prosodic information of the domain of LD. Contrary to the
common practice of using prosodic annotation mainly for static pauses, this
paper demonstrates that prosodic annotation can also be applied to dynamic
tonal phenomena. I anticipate this project to be a starting point for bringing
formal linguistic accounts of Shanghainese into computational projects. Too
long have we been using the Mandarin models to approximate Shanghainese, but it
is a different language with its own linguistic features, and its digitisation
and revitalisation should be treated as such.
- Abstract(参考訳): トーンは、主に都市上海で話される中華料理である上海ネッセの韻律の重要な要素である。
上海の複数の音節の単語すべてに適用されるトーンサンディーは、自然に聞こえる音声の鍵となる。
残念ながら、AppleのVoiceOverのような最近の上海ネスTTS(text-to-speech)の研究は、トーンサンディー、特にLD(left-dominant sandhi)のパフォーマンスが低かった。
ここでは,テキスト前処理中の単語セグメンテーションにより,TSモデルにおける音色サンディ生成の品質が向上することを示す。
同じ単語内のシラブルには特別なシンボルがアノテートされ、LDのドメインの韻律情報のプロキシとして機能する。
静的停止を主目的とする韻律アノテーションの一般的な実践とは対照的に,韻律アノテーションは動的音節現象にも適用可能であることを示す。
私は,このプロジェクトが,上海語の公式な言語記述を計算プロジェクトに持ち込む出発点になることを期待している。
上海語を近似するためにマンダリンモデルを用いたのは久しぶりだが、独自の言語的特徴を持つ異なる言語であり、そのデジタル化と再生はそう扱うべきである。
関連論文リスト
- READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - A Study of Modeling Rising Intonation in Cantonese Neural Speech
Synthesis [10.747119651974947]
宣言的な質問は毎日のカントン会話でよく使われる。
Vanilla Neural Text-to-Speech (TTS) システムはこれらの文に対して上昇するイントネーションを合成することができない。
本稿では, BERTに基づく文/問合せ分類器を用いて, Cantonese TTSモデルを補完することを提案する。
論文 参考訳(メタデータ) (2022-08-03T16:21:08Z) - A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural
Machine Translation [6.090922774386845]
翻訳モジュールを用いた中国語方言TTSを提案する。
マンダリンのテキストを正しい正書法と文法で慣用表現に変換するのに役立つ。
TTSに翻訳を取り入れた最初の作品である。
論文 参考訳(メタデータ) (2022-06-10T07:46:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。