論文の概要: ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information
- arxiv url: http://arxiv.org/abs/2106.16038v1
- Date: Wed, 30 Jun 2021 13:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 18:50:40.510353
- Title: ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information
- Title(参考訳): ChineseBERT: グリフとピニインの情報で強化された中国の事前訓練
- Authors: Zijun Sun, Xiaoya Li, Xiaofei Sun, Yuxian Meng, Xiang Ao, Qing He, Fei
Wu, Jiwei Li
- Abstract要約: 我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 32.70080326854314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent pretraining models in Chinese neglect two important aspects specific
to the Chinese language: glyph and pinyin, which carry significant syntax and
semantic information for language understanding. In this work, we propose
ChineseBERT, which incorporates both the {\it glyph} and {\it pinyin}
information of Chinese characters into language model pretraining. The glyph
embedding is obtained based on different fonts of a Chinese character, being
able to capture character semantics from the visual features, and the pinyin
embedding characterizes the pronunciation of Chinese characters, which handles
the highly prevalent heteronym phenomenon in Chinese (the same character has
different pronunciations with different meanings). Pretrained on large-scale
unlabeled Chinese corpus, the proposed ChineseBERT model yields significant
performance boost over baseline models with fewer training steps. The porpsoed
model achieves new SOTA performances on a wide range of Chinese NLP tasks,
including machine reading comprehension, natural language inference, text
classification, sentence pair matching, and competitive performances in named
entity recognition. Code and pretrained models are publicly available at
https://github.com/ShannonAI/ChineseBert.
- Abstract(参考訳): 最近の中国語における事前学習モデルは、中国語に特有の2つの重要な側面を無視している。
そこで本研究では,中国語の「グリフ」と「ピンイン」の情報を言語モデルの事前学習に組み込んだ「チャイナベルト」を提案する。
グリフ埋め込みは、漢字の異なるフォントに基づいて得られ、視覚特徴から文字の意味を捉えることができ、ピニイン埋め込みは、中国語の非常に一般的なヘテロニム現象を扱う漢字の発音を特徴付ける(同じ文字は、異なる意味の異なる発音を持つ)。
大規模なラベルなし中国語コーパスで事前トレーニングされたこのモデルでは、トレーニングステップの少ないベースラインモデルよりも大幅にパフォーマンスが向上する。
porpsoedモデルは、機械読解、自然言語推論、テキスト分類、文のペアマッチング、名前付きエンティティ認識における競合性能など、幅広い中国のnlpタスクで新たなsoma性能を実現する。
コードと事前トレーニングされたモデルはhttps://github.com/ShannonAI/ ChineseBert.comで公開されている。
関連論文リスト
- Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition [4.64065792373245]
我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-17T14:39:10Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - StyleBERT: Chinese pretraining by font style information [14.585511561131078]
実験により,中国における広範囲のNLPタスクにおいて,モデルが良好な性能を発揮することが示された。
英語とは異なり、中国語にはグリフ情報などの特殊文字がある。
論文 参考訳(メタデータ) (2022-02-21T02:45:12Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - CalliGAN: Style and Structure-aware Chinese Calligraphy Character
Generator [6.440233787863018]
書道(きゅうりょう)とは、筆で行う芸術形式としての漢字の書法である。
近年の研究では、1つのモデルを用いて複数のスタイルのイメージ・ツー・イメージ翻訳によって漢字を生成することができることが示されている。
そこで本研究では,漢字の成分情報をモデルに組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2020-05-26T03:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。