論文の概要: Form and meaning co-determine the realization of tone in Taiwan Mandarin spontaneous speech: the case of Tone 3 sandhi
- arxiv url: http://arxiv.org/abs/2408.15747v1
- Date: Wed, 28 Aug 2024 12:25:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 16:00:49.896656
- Title: Form and meaning co-determine the realization of tone in Taiwan Mandarin spontaneous speech: the case of Tone 3 sandhi
- Title(参考訳): 台湾・マンダリン発声における発声音の形式と意味--トネ3サンディーを事例として
- Authors: Yuxin Lu, Yu-Ying Chuang, R. Harald Baayen,
- Abstract要約: 標準中国語ではトーン3(ディッピング音)がトーン2(トリッピング音)となり、次に別のトーン3が続く。
以前の研究では、このサンジー過程は完全なものではなく、同化トーン3が真のトーン2とはいまだに異なっていることを指摘している。
本研究では,台湾・マンダリン自発会話におけるT2-T3およびT3-T3音調パターンを用いた2文字単語のピッチパターンについて検討した。
- 参考スコア(独自算出の注目度): 1.7723990552388866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Standard Chinese, Tone 3 (the dipping tone) becomes Tone 2 (rising tone) when followed by another Tone 3. Previous studies have noted that this sandhi process may be incomplete, in the sense that the assimilated Tone 3 is still distinct from a true Tone 2. While Mandarin Tone 3 sandhi is widely studied using carefully controlled laboratory speech (Xu, 1997) and more formal registers of Beijing Mandarin (Yuan and Chen, 2014), less is known about its realization in spontaneous speech, and about the effect of contextual factors on tonal realization. The present study investigates the pitch contours of two-character words with T2-T3 and T3-T3 tone patterns in spontaneous Taiwan Mandarin conversations. Our analysis makes use of the Generative Additive Mixed Model (GAMM, Wood, 2017) to examine fundamental frequency (f0) contours as a function of normalized time. We consider various factors known to influence pitch contours, including gender, speaking rate, speaker, neighboring tones, word position, bigram probability, and also novel predictors, word and word sense (Chuang et al., 2024). Our analyses revealed that in spontaneous Taiwan Mandarin, T3-T3 words become indistinguishable from T2-T3 words, indicating complete sandhi, once the strong effect of word (or word sense) is taken into account. For our data, the shape of f0 contours is not co-determined by word frequency. In contrast, the effect of word meaning on f0 contours is robust, as strong as the effect of adjacent tones, and is present for both T2-T3 and T3-T3 words.
- Abstract(参考訳): 標準中国語ではトーン3(ディッピング音)がトーン2(トリッピング音)となり、次に別のトーン3が続く。
以前の研究では、このサンジー過程は完全なものではなく、同化トーン3が真のトーン2とはいまだに異なっていることを指摘している。
マンダリントーン3サンディーは、慎重に制御された実験室のスピーチ(Xu, 1997)と北京・マンダリンの正式な登録(Yuan and Chen, 2014)を用いて広く研究されているが、自然発声におけるその実現についてはあまり知られていない。
本研究では,台湾・マンダリン自発会話におけるT2-T3およびT3-T3音調パターンを用いた2文字単語のピッチパターンについて検討した。
我々はGAMM(Generative Additive Mixed Model, GAMM, Wood, 2017)を用いて, 基本周波数(f0)の輪郭を正規化時間関数として検討する。
本研究では,性別,発話速度,話者,隣り合う音色,単語の位置,ビッグラム確率,および新しい予測器,単語,単語感覚(Chuang et al ,2024)など,ピッチの輪郭に影響を与える要因について考察する。
台湾の自発マンダリンでは,T3-T3単語はT2-T3単語と区別不能となり,単語(あるいは単語感覚)の強い影響が考慮されれば,完全サンディーを示すことが明らかとなった。
我々のデータでは、f0輪郭の形状は単語周波数によって決定されない。
対照的に、単語の意味がf0輪郭に与える影響は、隣り合う音色の影響と同じくらい強く、T2-T3語とT3-T3語の両方に存在している。
関連論文リスト
- A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin [3.072340427031969]
台湾の自発マンダリンコーパスにおいて,63種類の異なる単語の3824個のトークンのF0輪郭を解析した。
音調文脈が単語の標準音調を著しく変化させることを示す。
また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。
論文 参考訳(メタデータ) (2024-09-12T09:51:56Z) - Word-specific tonal realizations in Mandarin [0.9249657468385781]
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾の自発会話コーパスに基づいて,従来確立されていたすべての単語形式関連予測器よりも,単語タイプがピッチ実現の強い予測器であることが示す。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチ輪郭が保持データ上で50%の精度で単語タイプを予測することを示す。
論文 参考訳(メタデータ) (2024-05-11T13:00:35Z) - MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - Improving TTS for Shanghainese: Addressing Tone Sandhi via Word
Segmentation [0.0]
上海のすべての多音節語に当てはまるトーンサンディーは、自然に聞こえる音声の鍵となる。
AppleのVoiceOverのようなShanghainese TTS(text-to-speech)に関する最近の研究は、トーンサンディーによるパフォーマンスの低さを示している。
テキスト前処理中の単語セグメンテーションにより,TSモデルにおける音色サンディ生成の品質が向上することを示す。
論文 参考訳(メタデータ) (2023-07-30T10:50:18Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - Cross-strait Variations on Two Near-synonymous Loanwords xie2shang1 and
tan2pan4: A Corpus-based Comparative Study [2.6194322370744305]
本研究は,中国語の2つの典型的な同義語であるxie2shang1とtan2pan4の交叉変化について検討する。
比較分析により、台湾とマンダリンの分布的、最終的な、文脈的類似点と相違点が見つかった。
論文 参考訳(メタデータ) (2022-10-09T04:10:58Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - AdaSpeech 3: Adaptive Text to Speech for Spontaneous Style [111.89762723159677]
AdaSpeech 3 は,順応性のある TTS システムである。
AdaSpeech 3は自然なFPとリズムを自発的なスタイルで合成し、従来の適応TSシステムよりもずっと優れたMOSとSMOSスコアを達成する。
論文 参考訳(メタデータ) (2021-07-06T10:40:45Z) - Modeling Prosodic Phrasing with Multi-Task Learning in Tacotron-based
TTS [74.11899135025503]
本稿では,Tacotronに基づく音声合成フレームワークを拡張し,韻律句のブレークを明示的にモデル化する。
提案手法は中国語とモンゴル語の両方の音質を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。