論文の概要: A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin
- arxiv url: http://arxiv.org/abs/2409.07891v1
- Date: Thu, 12 Sep 2024 09:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:58:31.310815
- Title: A corpus-based investigation of pitch contours of monosyllabic words in conversational Taiwan Mandarin
- Title(参考訳): 台湾マンダリン会話における単音節単語のピッチ輪郭のコーパスに基づく検討
- Authors: Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen,
- Abstract要約: 台湾の自発マンダリンコーパスにおいて,63種類の異なる単語の3824個のトークンのF0輪郭を解析した。
音調文脈が単語の標準音調を著しく変化させることを示す。
また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。
- 参考スコア(独自算出の注目度): 3.072340427031969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Mandarin, the tonal contours of monosyllabic words produced in isolation or in careful speech are characterized by four lexical tones: a high-level tone (T1), a rising tone (T2), a dipping tone (T3) and a falling tone (T4). However, in spontaneous speech, the actual tonal realization of monosyllabic words can deviate significantly from these canonical tones due to intra-syllabic co-articulation and inter-syllabic co-articulation with adjacent tones. In addition, Chuang et al. (2024) recently reported that the tonal contours of disyllabic Mandarin words with T2-T4 tone pattern are co-determined by their meanings. Following up on their research, we present a corpus-based investigation of how the pitch contours of monosyllabic words are realized in spontaneous conversational Mandarin, focusing on the effects of contextual predictors on the one hand, and the way in words' meanings co-determine pitch contours on the other hand. We analyze the F0 contours of 3824 tokens of 63 different word types in a spontaneous Taiwan Mandarin corpus, using the generalized additive (mixed) model to decompose a given observed pitch contour into a set of component pitch contours. We show that the tonal context substantially modify a word's canonical tone. Once the effect of tonal context is controlled for, T2 and T3 emerge as low flat tones, contrasting with T1 as a high tone, and with T4 as a high-to-mid falling tone. The neutral tone (T0), which in standard descriptions, is realized based on the preceding tone, emerges as a low tone in its own right, modified by the other predictors in the same way as the standard tones T1, T2, T3, and T4. We also show that word, and even more so, word sense, co-determine words' F0 contours. Analyses of variable importance using random forests further supported the substantial effect of tonal context and an effect of word sense.
- Abstract(参考訳): マンダリンでは、単音節音の音節輪郭は、高音階(T1)、高音階(T2)、ディッピング音階(T3)、下音階(T4)の4つの語彙音で特徴付けられる。
しかし, 自然発声では, 単音節単語の音節化は, 声節内共声調と声節間共声調と隣接音調により, 音節間共声調とは大きく異なる。
また,Chuang et al (2024) は近年,T2-T4音調パターンの非音節的マンダリン語の音節輪郭が,その意味によって同時決定されていることを報告している。
その研究に続いて,単音節単語のピッチパターンが自然会話のマンダリンでどのように実現されるのかをコーパスベースで検討し,文脈予測者が片手に与える影響と,他方で単語の意味がピッチパターンを共決定する方法について考察する。
台湾・マンダリン・コーパスにおける3824個の異なる単語型のトークンのF0輪郭を一般化付加(混合)モデルを用いて解析し,与えられたピッチ輪郭を成分ピッチ輪郭の集合に分解する。
音調文脈が単語の標準音調を著しく変化させることを示す。
音調コンテキストが制御されると、T2とT3は低い平坦な音色として現れ、T1は高い音色として、T4は高中間の音色として現れる。
標準記述では、前音に基づいて中性音(T0)が、標準音T1、T2、T3、T4と同じ方法で他の予測器によって修正され、それ自身で低音として現れる。
また、その単語、更には、単語センス、共同決定語F0の輪郭も示します。
ランダムな森林を用いた変動重要度の分析は、音調文脈の実質的な影響と単語感覚の効果をさらに裏付けた。
関連論文リスト
- Form and meaning co-determine the realization of tone in Taiwan Mandarin spontaneous speech: the case of Tone 3 sandhi [1.7723990552388866]
標準中国語ではトーン3(ディッピング音)がトーン2(トリッピング音)となり、次に別のトーン3が続く。
以前の研究では、このサンジー過程は完全なものではなく、同化トーン3が真のトーン2とはいまだに異なっていることを指摘している。
本研究では,台湾・マンダリン自発会話におけるT2-T3およびT3-T3音調パターンを用いた2文字単語のピッチパターンについて検討した。
論文 参考訳(メタデータ) (2024-08-28T12:25:45Z) - Word-specific tonal realizations in Mandarin [0.9249657468385781]
本研究は,音素認識が単語の意味によって部分的に決定されることを示唆している。
まず,台湾の自発会話コーパスに基づいて,従来確立されていたすべての単語形式関連予測器よりも,単語タイプがピッチ実現の強い予測器であることが示す。
次に、文脈固有単語埋め込みを用いた計算モデルを用いて、トークン固有ピッチ輪郭が保持データ上で50%の精度で単語タイプを予測することを示す。
論文 参考訳(メタデータ) (2024-05-11T13:00:35Z) - Explicit Intensity Control for Accented Text-to-speech [65.35831577398174]
TTSの過程におけるアクセントの強度の制御は、非常に興味深い研究方向である。
近年の作業は、話者とアクセント情報をアンタングルし、そのアクセント強度を制御するために損失重量を調整するために、話者対アダルロスを設計している。
本稿では,アクセント付きTSのための直感的かつ明示的なアクセント強度制御方式を提案する。
論文 参考訳(メタデータ) (2022-10-27T12:23:41Z) - Cross-strait Variations on Two Near-synonymous Loanwords xie2shang1 and
tan2pan4: A Corpus-based Comparative Study [2.6194322370744305]
本研究は,中国語の2つの典型的な同義語であるxie2shang1とtan2pan4の交叉変化について検討する。
比較分析により、台湾とマンダリンの分布的、最終的な、文脈的類似点と相違点が見つかった。
論文 参考訳(メタデータ) (2022-10-09T04:10:58Z) - Controllable Accented Text-to-Speech Synthesis [76.80549143755242]
我々は、推論中にアクセントとその強度を制御できるニューラルネットワークTSアーキテクチャを提案する。
これは、明示的な強度制御を伴うアクセント付きTS合成の最初の研究である。
論文 参考訳(メタデータ) (2022-09-22T06:13:07Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Phrase break prediction with bidirectional encoder representations in
Japanese text-to-speech synthesis [8.391631335854457]
本稿では,事前学習した大言語モデルであるBERTから抽出した暗黙的特徴と,BiLSTMから抽出した明示的特徴とを言語的特徴とを組み合わせ,句分割予測手法を提案する。
提案手法は,従来の手法では捕捉できない潜在意味論を抽出するために,両表現を考慮に入れている。
論文 参考訳(メタデータ) (2021-04-26T08:29:29Z) - Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features [1.6286844497313562]
ストレス音節とピッチアクセントの2つの基本的な韻律的特徴から,Tacotron-2をコンディショニングする戦略を提案する。
本研究では,プリエンコーダとイントラデコーダの段階での協調条件が自然合成音声に結びつくことを示した。
論文 参考訳(メタデータ) (2021-04-08T20:50:15Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。