論文の概要: Exploring and Adapting Chinese GPT to Pinyin Input Method
- arxiv url: http://arxiv.org/abs/2203.00249v2
- Date: Wed, 2 Mar 2022 03:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 12:20:51.008631
- Title: Exploring and Adapting Chinese GPT to Pinyin Input Method
- Title(参考訳): ピン入力法における中国語GPTの探索と適応
- Authors: Minghuan Tan, Yong Dai, Duyu Tang, Zhangyin Feng, Guoping Huang, Jing
Jiang, Jiwei Li, Shuming Shi
- Abstract要約: 我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
- 参考スコア(独自算出の注目度): 48.15790080309427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While GPT has become the de-facto method for text generation tasks, its
application to pinyin input method remains unexplored. In this work, we make
the first exploration to leverage Chinese GPT for pinyin input method. We find
that a frozen GPT achieves state-of-the-art performance on perfect pinyin.
However, the performance drops dramatically when the input includes abbreviated
pinyin. A reason is that an abbreviated pinyin can be mapped to many perfect
pinyin, which links to even larger number of Chinese characters. We mitigate
this issue with two strategies, including enriching the context with pinyin and
optimizing the training process to help distinguish homophones. To further
facilitate the evaluation of pinyin input method, we create a dataset
consisting of 270K instances from 15 domains. Results show that our approach
improves performance on abbreviated pinyin across all domains. Model analysis
demonstrates that both strategies contribute to the performance boost.
- Abstract(参考訳): GPTはテキスト生成タスクのデファクトメソッドとなっているが、Pinyin 入力メソッドへの応用は未検討のままである。
本稿では,中国のgptをピンイン入力法に活用する最初の探索を行う。
凍結したGPTはピニインの最先端性能を実現する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
理由は、省略されたpinyinは、多くの完全なpinyinにマッピングできるためであり、これはさらに多くの漢字にリンクしている。
pinyinでコンテキストを豊かにし、ホモホンを識別するためのトレーニングプロセスを最適化することを含む、2つの戦略でこの問題を軽減する。
さらにPinyin入力手法の評価を容易にするため、15ドメインから270Kインスタンスからなるデータセットを作成する。
その結果,全領域にわたる短縮ピンインの性能が向上した。
モデル分析は、両方の戦略がパフォーマンス向上に寄与することを示している。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Exploring the Usage of Chinese Pinyin in Pretraining [28.875174965608554]
ピニインは、ASR導入エラーに対するエラー訂正や耐故障性など、多くのシナリオにおいて不可欠である。
そこで本研究では,PmBERTと呼ばれる事前学習モデルにPinyinを使用する方法について検討し,新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-08T01:26:44Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Injecting Word Information with Multi-Level Word Adapter for Chinese
Spoken Language Understanding [65.01421041485247]
我々は、単語情報を注入することで、中国語の音声理解(SLU)を改善する。
我々のモデルは有用な単語情報をキャプチャし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2020-10-08T11:11:05Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。