論文の概要: MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining
- arxiv url: http://arxiv.org/abs/2011.08539v1
- Date: Tue, 17 Nov 2020 10:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:40:05.233293
- Title: MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab
Pretraining
- Title(参考訳): MVP-BERT: Chinese BERT と Multi-Vocab Pretraining のための語彙の再設計
- Authors: Wei Zhu
- Abstract要約: まず,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語BERTの語彙を形成する新しい手法であるemphseg_tokを提案する。
実験の結果,emphseg_tok は中国語 PLM の文レベルタスクの性能を向上するだけでなく,効率も向上することが示された。
- 参考スコア(独自算出の注目度): 5.503321733964237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the development of pre-trained language models (PLMs) significantly
raise the performances of various Chinese natural language processing (NLP)
tasks, the vocabulary for these Chinese PLMs remain to be the one provided by
Google Chinese Bert \cite{devlin2018bert}, which is based on Chinese
characters. Second, the masked language model pre-training is based on a single
vocabulary, which limits its downstream task performances. In this work, we
first propose a novel method, \emph{seg\_tok}, to form the vocabulary of
Chinese BERT, with the help of Chinese word segmentation (CWS) and subword
tokenization. Then we propose three versions of multi-vocabulary pretraining
(MVP) to improve the models expressiveness. Experiments show that: (a) compared
with char based vocabulary, \emph{seg\_tok} does not only improves the
performances of Chinese PLMs on sentence level tasks, it can also improve
efficiency; (b) MVP improves PLMs' downstream performance, especially it can
improve \emph{seg\_tok}'s performances on sequence labeling tasks.
- Abstract(参考訳): 事前訓練された言語モデル(PLM)の開発は、様々な中国語自然言語処理(NLP)タスクのパフォーマンスを著しく向上させたが、これらの中国語PLMの語彙は、中国語をベースとしたGoogleのBert \cite{devlin2018bert}によって提供されるものである。
第二に、マスク付き言語モデルの事前トレーニングは、ダウンストリームタスクのパフォーマンスを制限する単一の語彙に基づいている。
そこで本研究では,中国語単語セグメンテーション(CWS)とサブワードトークン化の助けを借りて,中国語 BERT の語彙を形成する新しい手法である \emph{seg\_tok} を提案する。
次に,モデル表現性を改善するために,マルチボキャブラリープリトレーニング(mvp)の3つのバージョンを提案する。
実験によると
(a) シャーベース語彙と比較すると, 'emph{seg\_tok} は文レベルタスクにおける中国語 PLM のパフォーマンスを向上するだけでなく,効率も向上する。
(b)mvpはplmsの下流性能を改善し、特にシーケンスラベリングタスクにおける \emph{seg\_tok} のパフォーマンスを向上させることができる。
関連論文リスト
- Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Character, Word, or Both? Revisiting the Segmentation Granularity for
Chinese Pre-trained Language Models [42.75756994523378]
文字と単語の両方を考慮した混合粒度中国語 BERT (MigBERT) を提案する。
提案するMigBERTだけでなく,既存のPLMを評価するために,中国における様々なNLPタスクについて広範な実験を行った。
MigBERTは、これらすべてのタスクで新しいSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-20T06:20:03Z) - CLOWER: A Pre-trained Language Model with Contrastive Learning over Word
and Character Representations [18.780841483220986]
事前学習型言語モデル(PLM)は、自然言語理解における多くの下流タスクにおいて、顕著なパフォーマンス向上を実現している。
現在のほとんどのモデルは漢字を入力として使用しており、中国語の単語に含まれる意味情報をエンコードすることができない。
本稿では,コントラッシブ・ラーニング・オーバーワード(Contrastive Learning Over Word)とチャラクタ表現(character representations)を採用した,シンプルで効果的なPLM CLOWERを提案する。
論文 参考訳(メタデータ) (2022-08-23T09:52:34Z) - "Is Whole Word Masking Always Better for Chinese BERT?": Probing on
Chinese Grammatical Error Correction [58.40808660657153]
我々は,中国語のBERTにおいて,単語マスキング(WWM)が文脈理解能力の向上につながるかどうかを検討する。
我々は10,448文で19,075トークンのラベルを含むデータセットを構築した。
標準文字レベルマスキング(CLM)、WWM、CLMとWWMを組み合わせた3つの中国のBERTモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-01T08:24:56Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。
英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。
CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2020-08-27T00:23:48Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。