論文の概要: Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2303.10893v2
- Date: Wed, 22 Mar 2023 03:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 11:12:26.113781
- Title: Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models
- Title(参考訳): キャラクタ、ワード、または両方?
中国語事前学習モデルにおけるセグメンテーション粒度の再検討
- Authors: Xinnian Liang, Zefan Zhou, Hui Huang, Shuangzhi Wu, Tong Xiao, Muyun
Yang, Zhoujun Li, Chao Bian
- Abstract要約: 文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 42.75756994523378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained language models (PLMs) have shown marvelous improvements across
various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence
of characters, and completely ignore word information. Although Whole Word
Masking can alleviate this, the semantics in words is still not well
represented. In this paper, we revisit the segmentation granularity of Chinese
PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both
characters and words. To achieve this, we design objective functions for
learning both character and word-level representations. We conduct extensive
experiments on various Chinese NLP tasks to evaluate existing PLMs as well as
the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA
performance on all these tasks. Further analysis demonstrates that words are
semantically richer than characters. More interestingly, we show that MigBERT
also works with Japanese. Our code and model have been released
here~\footnote{https://github.com/xnliang98/MigBERT}.
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、様々なNLPタスクで驚くほど改善されている。
ほとんどの中国語のPLMは入力テキストを文字のシーケンスとして扱い、単語情報を完全に無視する。
全単語マスキングはこれを緩和できるが、単語の意味論はいまだよく表現されていない。
本稿では,中国のplmのセグメンテーション粒度を再検討する。
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
これを実現するために,文字および単語レベルの表現を学習するための目的関数を設計する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
実験結果から,MigBERTは全てのタスクにおいて新しいSOTA性能を実現することがわかった。
さらに分析すると、単語は文字よりも意味的に豊かであることが示される。
さらに興味深いのは、MigBERTが日本語でも使えることだ。
私たちのコードとモデルはここでリリースされています。
関連論文リスト
- Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - CLOWER: A Pre-trained Language Model with Contrastive Learning over Word
and Character Representations [18.780841483220986]
事前学習型言語モデル(PLM)は、自然言語理解における多くの下流タスクにおいて、顕著なパフォーマンス向上を実現している。
現在のほとんどのモデルは漢字を入力として使用しており、中国語の単語に含まれる意味情報をエンコードすることができない。
本稿では,コントラッシブ・ラーニング・オーバーワード(Contrastive Learning Over Word)とチャラクタ表現(character representations)を採用した,シンプルで効果的なPLM CLOWERを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:52:34Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining [5.503321733964237]
まず,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語BERTの語彙を形成する新しい手法であるemphseg_tokを提案する。
実験の結果,emphseg_tok は中国語 PLM の文レベルタスクの性能を向上するだけでなく,効率も向上することが示された。
論文 参考訳(メタデータ) (2020-11-17T10:15:36Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。