論文の概要: SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining
- arxiv url: http://arxiv.org/abs/2106.00400v1
- Date: Tue, 1 Jun 2021 11:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 20:39:06.678251
- Title: SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining
- Title(参考訳): 春園寺井:中国語モデル事前学習のための言語的インフォームド・トケナイザー
- Authors: Chenglei Si, Zhengyan Zhang, Yingfa Chen, Fanchao Qi, Xiaozhi Wang,
Zhiyuan Liu, Maosong Sun
- Abstract要約: 事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
- 参考スコア(独自算出の注目度): 48.880840711568425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional tokenization methods for Chinese pretrained language models
(PLMs) treat each character as an indivisible token (Devlin et al., 2019),
which ignores the characteristics of the Chinese writing system. In this work,
we comprehensively study the influences of three main factors on the Chinese
tokenization for PLM: pronunciation, glyph (i.e., shape), and word boundary.
Correspondingly, we propose three kinds of tokenizers: 1) SHUOWEN (meaning Talk
Word), the pronunciation-based tokenizers; 2) JIEZI (meaning Solve Character),
the glyph-based tokenizers; 3) Word segmented tokenizers, the tokenizers with
Chinese word segmentation. To empirically compare the effectiveness of studied
tokenizers, we pretrain BERT-style language models with them and evaluate the
models on various downstream NLU tasks. We find that SHUOWEN and JIEZI
tokenizers can generally outperform conventional single-character tokenizers,
while Chinese word segmentation shows no benefit as a preprocessing step.
Moreover, the proposed SHUOWEN and JIEZI tokenizers exhibit significantly
better robustness in handling noisy texts. The code and pretrained models will
be publicly released to facilitate linguistically informed Chinese NLP.
- Abstract(参考訳): 中国語事前訓練言語モデル(PLM)の従来のトークン化手法では、各文字を識別不可能なトークンとして扱う(Devlin et al., 2019)。
本研究では,PLMの中国語トークン化における3つの要因,すなわち発音,グリフ(形),単語境界の影響を包括的に研究する。
対応として,1) SHUOWEN(話し言葉),2) JIEZI(ソルブ文字),3) グリフベーストークン,3) 単語セグメント化トークン,および中国語単語セグメント化トークンの3種類を提案する。
検討したトークン化器の有効性を実証的に比較するために,BERTスタイルの言語モデルとそれらを事前学習し,下流NLUタスクのモデルを評価する。
SHUOWENとJIEZIは従来の単一文字のトークン化器よりも優れており、中国語のセグメンテーションは前処理のステップとして何の利益も示さない。
さらに,提案したSHUOWENおよびJIEZIトークンは,ノイズの多いテキストを扱う場合のロバスト性が著しく向上した。
コードと事前訓練されたモデルは、言語的に知らされた中国語NLPを促進するために公開される。
関連論文リスト
- Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining [5.503321733964237]
まず,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語BERTの語彙を形成する新しい手法であるemphseg_tokを提案する。
実験の結果,emphseg_tok は中国語 PLM の文レベルタスクの性能を向上するだけでなく,効率も向上することが示された。
論文 参考訳(メタデータ) (2020-11-17T10:15:36Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。