論文の概要: Learning to Pronounce Chinese Without a Pronunciation Dictionary
- arxiv url: http://arxiv.org/abs/2010.04744v1
- Date: Fri, 9 Oct 2020 18:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:30:53.372576
- Title: Learning to Pronounce Chinese Without a Pronunciation Dictionary
- Title(参考訳): 発音辞書なしで中国語を発音する学習
- Authors: Christopher Chu, Scot Fang and Kevin Knight
- Abstract要約: マンダリンで漢文を発音するプログラムを,発音辞書を使わずに実演する。
漢字と中国語のピン音の非パラレルストリームから、文字と発音の多対多のマッピングを確立する。
トークンレベルの文字と音節の精度は89%であり、前処理の22%の精度を大きく上回っている。
- 参考スコア(独自算出の注目度): 10.622817647136667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate a program that learns to pronounce Chinese text in Mandarin,
without a pronunciation dictionary. From non-parallel streams of Chinese
characters and Chinese pinyin syllables, it establishes a many-to-many mapping
between characters and pronunciations. Using unsupervised methods, the program
effectively deciphers writing into speech. Its token-level
character-to-syllable accuracy is 89%, which significantly exceeds the 22%
accuracy of prior work.
- Abstract(参考訳): 発音辞書を使わずに中国語の文章を中国語で発音するプログラムを実演する。
漢字と中国語のピン音の非並列ストリームから、文字と発音の多対多のマッピングを確立する。
教師なしの方法を用いて、プログラムは文章を効果的に音声に解読する。
トークンレベルの文字と音節の精度は89%であり、前処理の22%を超える。
関連論文リスト
- Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。
そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-08T01:26:44Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Decoupling recognition and transcription in Mandarin ASR [21.36547395115413]
本研究では,(1)音声 ->Pinyinと(2)Pinyin ->Hanziの2つのサブタスクにハンジを分解することを提案する。
オーディオをファクタする -> この方法でHanziタスクは、Aishell-1コーパス上で3.9%のCER(文字エラー率)を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:09:41Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。