論文の概要: Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words
- arxiv url: http://arxiv.org/abs/2202.12142v1
- Date: Thu, 24 Feb 2022 15:15:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 17:01:26.445414
- Title: Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words
- Title(参考訳): ワードピースなしのプレトレーニング:何百万という単語の語彙について学ぶ
- Authors: Zhangyin Feng, Duyu Tang, Cong Zhou, Junwei Liao, Shuangzhi Wu,
Xiaocheng Feng, Bing Qin, Yunbo Cao, Shuming Shi
- Abstract要約: 本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
- 参考スコア(独自算出の注目度): 50.11559460111882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The standard BERT adopts subword-based tokenization, which may break a word
into two or more wordpieces (e.g., converting "lossless" to "loss" and "less").
This will bring inconvenience in following situations: (1) what is the best way
to obtain the contextual vector of a word that is divided into multiple
wordpieces? (2) how to predict a word via cloze test without knowing the number
of wordpieces in advance? In this work, we explore the possibility of
developing BERT-style pretrained model over a vocabulary of words instead of
wordpieces. We call such word-level BERT model as WordBERT. We train models
with different vocabulary sizes, initialization configurations and languages.
Results show that, compared to standard wordpiece-based BERT, WordBERT makes
significant improvements on cloze test and machine reading comprehension. On
many other natural language understanding tasks, including POS tagging,
chunking and NER, WordBERT consistently performs better than BERT. Model
analysis indicates that the major advantage of WordBERT over BERT lies in the
understanding for low-frequency words and rare words. Furthermore, since the
pipeline is language-independent, we train WordBERT for Chinese language and
obtain significant gains on five natural language understanding datasets.
Lastly, the analyse on inference speed illustrates WordBERT has comparable time
cost to BERT in natural language understanding tasks.
- Abstract(参考訳): 標準のbertは、単語を2つ以上の単語に分解するサブワードベースのトークン化を採用している(例えば、"lossless" を "loss" と "less" に変換する)。
これにより、(1)複数のワードピースに分割された単語の文脈ベクトルを得る最善の方法は何か?
2)単語の数を事前に知ることなくクローゼテストで単語を予測する方法
本研究では,単語の代わりに単語の語彙を用いたBERT型事前学習モデルの開発の可能性を検討する。
我々は、WordBERTのようなワードレベルBERTモデルと呼ぶ。
異なる語彙サイズ、初期化設定、言語でモデルをトレーニングします。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
POSタグ、チャンキング、NERなど、多くの自然言語理解タスクにおいて、WordBERTはBERTよりも一貫してパフォーマンスが良い。
モデル解析により,WordBERTのBERTに対する大きな利点は,低頻度単語や稀な単語に対する理解にあることが示された。
さらに、パイプラインは言語に依存しないため、中国語のwordbertをトレーニングし、5つの自然言語理解データセットで大きな成果を得る。
最後に、推論速度に関する分析は、WordBERTが自然言語理解タスクにおいてBERTに匹敵する時間コストを持つことを示している。
関連論文リスト
- Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Lacking the embedding of a word? Look it up into a traditional
dictionary [0.2624902795082451]
従来の辞書で検索された定義を用いて,稀な単語に対する単語埋め込みを生成することを提案する。
DefiNNetとDefBERTは、未知の単語の埋め込みを生成するためのベースラインメソッドと同様に、最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-24T06:27:58Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary
Representations From Characters [14.956626084281638]
本稿では,ワードピースシステムを完全に廃止し,代わりに文字を照会して全単語を表現するために,文字CNNモジュールを使用するBERTの新たな変種を提案する。
この新モデルにより,様々な医療領域タスクにおけるBERTの性能が向上すると同時に,頑健で単語レベルのオープン語彙表現が実現できることが示唆された。
論文 参考訳(メタデータ) (2020-10-20T15:58:53Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - BERT for Monolingual and Cross-Lingual Reverse Dictionary [56.8627517256663]
本稿では,BERTが特定のタスクの目的語を生成するための,シンプルだが効果的な手法を提案する。
BERT (mBERT) を用いることで,1つの単語を埋め込んだ言語間逆辞書を効率的に行うことができる。
論文 参考訳(メタデータ) (2020-09-30T17:00:10Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。