論文の概要: g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset
- arxiv url: http://arxiv.org/abs/2004.03136v5
- Date: Thu, 17 Sep 2020 10:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:48:48.169718
- Title: g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset
- Title(参考訳): g2pm:新しいオープンベンチマークデータセットに基づく中国語中国語用ニューラルネットワークグラフから音素への変換パッケージ
- Authors: Kyubyong Park, Seanie Lee
- Abstract要約: 中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
- 参考スコア(独自算出の注目度): 14.323478990713477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversion of Chinese graphemes to phonemes (G2P) is an essential component
in Mandarin Chinese Text-To-Speech (TTS) systems. One of the biggest challenges
in Chinese G2P conversion is how to disambiguate the pronunciation of
polyphones - characters having multiple pronunciations. Although many academic
efforts have been made to address it, there has been no open dataset that can
serve as a standard benchmark for fair comparison to date. In addition, most of
the reported systems are hard to employ for researchers or practitioners who
want to convert Chinese text into pinyin at their convenience. Motivated by
these, in this work, we introduce a new benchmark dataset that consists of
99,000+ sentences for Chinese polyphone disambiguation. We train a simple
neural network model on it, and find that it outperforms other preexisting G2P
systems. Finally, we package our project and share it on PyPi.
- Abstract(参考訳): 中国語の文法から音素への変換(G2P)は,中国語のテキスト音声(TTS)システムにおいて重要な要素である。
中国のG2P変換における最大の課題の1つは、ポリフォンの発音を曖昧にする方法である。
これに対処するための学術的な努力が数多く行われているが、これまで、公正な比較のための標準ベンチマークとして機能するオープンデータセットは存在していない。
さらに、報告されたシステムのほとんどは、中国語のテキストを便宜的にピンインに変換したい研究者や実践者にとって、採用が難しい。
そこで本研究では,中国語の多音不明瞭度に対する99,000以上の文からなる新しいベンチマークデータセットを提案する。
単純なニューラルネットワークモデルをトレーニングし、既存のg2pシステムよりも優れています。
最後に、プロジェクトをパッケージ化し、PyPiで共有します。
関連論文リスト
- Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese [2.380039717474099]
Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムの必須部分である。
本稿では,中国語のポリホン文字の発音を予測するために,中国語のポリホンBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-01T09:16:29Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning [9.13211149475579]
漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T03:47:59Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。