論文の概要: Polyphone Disambiguition in Mandarin Chinese with Semi-Supervised
Learning
- arxiv url: http://arxiv.org/abs/2102.00621v1
- Date: Mon, 1 Feb 2021 03:47:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 17:02:16.943928
- Title: Polyphone Disambiguition in Mandarin Chinese with Semi-Supervised
Learning
- Title(参考訳): 半指導学習による中国語の多音障害
- Authors: Yi Shi and Congyi Wang and Yu Chen and Bin Wang
- Abstract要約: マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
本稿では,エントロピー保持やレキシコンベースラベリングなど,さまざまなプロキシラベリング戦略の効果について検討する。
- 参考スコア(独自算出の注目度): 9.595035978417322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of Chinese characters are monophonic, i.e.their pronunciations
are unique and thus can be induced easily using a check table. As for their
counterparts, polyphonic characters have more than one pronunciation. To
perform linguistic computation tasks related to spoken Mandarin Chinese, the
correct pronunciation for each polyphone must be identified among several
candidates according to its context. This process is called Polyphone
Disambiguation, a key procedure in the Grapheme-to-phoneme (G2P) conversion
step of a Chinese text-to-speech (TTS) system. The problem is well explored
with both knowledge-based and learning-based approaches, yet it remains
challenging due to the lack of publicly available datasets and complex language
phenomenon concerned polyphone. In this paper, we propose a novel
semi-supervised learning (SSL) framework for Mandarin Chinese polyphone
disambiguation that can potentially leverage unlimited unlabeled text data. We
explore the effect of various proxy labeling strategies including
entropy-thresholding and lexicon-based labeling. As for the architecture, a
pre-trained model of Electra is combined with Convolution BLSTM layers to
fine-tune on our task. Qualitative and quantitative experiments demonstrate
that our method achieves state-of-the-art performance in Mandarin Chinese
polyphone disambiguation. In addition, we publish a novel dataset specifically
for the polyphone disambiguation task to promote further researches.
- Abstract(参考訳): 漢字の大部分は単音であり、発音は独特であり、チェックテーブルで簡単に発音することができる。
それらに対して、ポリフォニック文字は複数の発音を持つ。
中国語話者に関連する言語計算タスクを実行するには、その文脈に応じて、各ポリフォンの正しい発音を特定する必要があります。
この処理はPolyphone Disambiguationと呼ばれ、中国のテキスト音声(TTS)システムのGrapheme-to-phoneme(G2P)変換ステップにおける重要な手順である。
この問題は知識ベースのアプローチと学習ベースのアプローチの両方でよく研究されているが、公開データセットの欠如や、ポリフォンに関する複雑な言語現象のため、依然として難しい。
本稿では,無ラベルテキストデータを利用する可能性のある中国語ポリホン不曖昧化のための半教師付き学習(ssl)フレームワークを提案する。
エントロピー-thresholding やlexicon-based labeling など,様々なプロキシラベリング戦略の効果を検討する。
アーキテクチャに関しては、Electraの事前トレーニングされたモデルとConvolution BLSTMレイヤーを組み合わせて、タスクを微調整します。
定性的および定量的実験により,マンダリン中国語多音不明瞭度における最先端性能が得られた。
さらに,ポリホンの曖昧化タスクに特化した新しいデータセットを公開し,さらなる研究を促進する。
関連論文リスト
- MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese [2.380039717474099]
Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムの必須部分である。
本稿では,中国語のポリホン文字の発音を予測するために,中国語のポリホンBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-01T09:16:29Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。