論文の概要: A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese
- arxiv url: http://arxiv.org/abs/2207.12089v1
- Date: Fri, 1 Jul 2022 09:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-31 14:48:49.072685
- Title: A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese
- Title(参考訳): 中国語における多音不明瞭化のためのポリフォンBERT
- Authors: Song Zhang, Ken Zheng, Xiaoxu Zhu, Baoxiang Li
- Abstract要約: Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムの必須部分である。
本稿では,中国語のポリホン文字の発音を予測するために,中国語のポリホンBERTモデルを提案する。
- 参考スコア(独自算出の注目度): 2.380039717474099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grapheme-to-phoneme (G2P) conversion is an indispensable part of the Chinese
Mandarin text-to-speech (TTS) system, and the core of G2P conversion is to
solve the problem of polyphone disambiguation, which is to pick up the correct
pronunciation for several candidates for a Chinese polyphonic character. In
this paper, we propose a Chinese polyphone BERT model to predict the
pronunciations of Chinese polyphonic characters. Firstly, we create 741 new
Chinese monophonic characters from 354 source Chinese polyphonic characters by
pronunciation. Then we get a Chinese polyphone BERT by extending a pre-trained
Chinese BERT with 741 new Chinese monophonic characters and adding a
corresponding embedding layer for new tokens, which is initialized by the
embeddings of source Chinese polyphonic characters. In this way, we can turn
the polyphone disambiguation task into a pre-training task of the Chinese
polyphone BERT. Experimental results demonstrate the effectiveness of the
proposed model, and the polyphone BERT model obtain 2% (from 92.1% to 94.1%)
improvement of average accuracy compared with the BERT-based classifier model,
which is the prior state-of-the-art in polyphone disambiguation.
- Abstract(参考訳): Grapheme-to-phoneme (G2P) 変換は中国語の Mandarin text-to-speech (TTS) システムの必須部分であり、G2P 変換の中核は多音不明瞭化の問題を解決することであり、これは中国語の多音文字候補の正しい発音を拾うことである。
本稿では、中国語のポリフォニー文字の発音を予測するための中国語ポリフォニーbertモデルを提案する。
まず,約354種類の中国語多音語から,741個の中国語単音素文字を発音して作成する。
そして、事前訓練された中国語のBERTを741の中国語の単音文字で拡張し、対応する新しいトークンの埋め込み層を追加することにより、中国語のポリフォンBERTを得る。
このようにして、ポリホン曖昧化タスクを中国のポリフォンBERTの事前訓練タスクに変換することができる。
実験の結果, 提案モデルの有効性が示され, ポリホンbertモデルは, 従来のポリホン不曖昧化状態であるbertベースの分類器モデルと比較して, 平均精度が 2% (92.1% から 94.1% に向上した。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme
Representations for Text to Speech [104.65639892109381]
学習能力を高めるために,音素と音素の混合表現を用いたBERTモデルの新たな変種であるMixedPhoneme BERTを提案する。
実験の結果,提案したMixed-Phoneme BERTは,FastSpeech 2ベースラインと比較して0.30CMOSゲインでTTS性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-03-31T17:12:26Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning [9.13211149475579]
漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T03:47:59Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。