論文の概要: Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2102.00621v3
- Date: Thu, 15 Aug 2024 06:51:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 19:30:50.019919
- Title: Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning
- Title(参考訳): 半教師付き学習を用いた中国語中国語における多音不明瞭化
- Authors: Yi Shi, Congyi Wang, Yu Chen, Bin Wang,
- Abstract要約: 漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.13211149475579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of Chinese characters are monophonic, while a special group of characters, called polyphonic characters, have multiple pronunciations. As a prerequisite of performing speech-related generative tasks, the correct pronunciation must be identified among several candidates. This process is called Polyphone Disambiguation. Although the problem has been well explored with both knowledge-based and learning-based approaches, it remains challenging due to the lack of publicly available labeled datasets and the irregular nature of polyphone in Mandarin Chinese. In this paper, we propose a novel semi-supervised learning (SSL) framework for Mandarin Chinese polyphone disambiguation that can potentially leverage unlimited unlabeled text data. We explore the effect of various proxy labeling strategies including entropy-thresholding and lexicon-based labeling. Qualitative and quantitative experiments demonstrate that our method achieves state-of-the-art performance. In addition, we publish a novel dataset specifically for the polyphone disambiguation task to promote further research.
- Abstract(参考訳): 漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
このプロセスはPolyphone Disambiguationと呼ばれる。
この問題は、知識ベースと学習ベースの両方のアプローチでよく研究されてきたが、一般に公開されているラベル付きデータセットの欠如と、中国語におけるポリフォンの不規則性により、依然として困難である。
本稿では,中国語多言語不明瞭化のための新たな半教師付き学習(SSL)フレームワークを提案する。
本稿では,エントロピー保持やレキシコンベースラベリングなど,さまざまなプロキシラベリング戦略の効果について検討する。
定性的かつ定量的な実験により,本手法が最先端の性能を実現することを示す。
さらに,ポリホンの曖昧化タスクに特化した新しいデータセットを公開し,さらなる研究を促進する。
関連論文リスト
- MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning [0.76146285961466]
言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
論文 参考訳(メタデータ) (2023-10-17T19:27:23Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese [2.380039717474099]
Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムの必須部分である。
本稿では,中国語のポリホン文字の発音を予測するために,中国語のポリホンBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-01T09:16:29Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。