論文の概要: CharBERT: Character-aware Pre-trained Language Model
- arxiv url: http://arxiv.org/abs/2011.01513v1
- Date: Tue, 3 Nov 2020 07:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:44:07.970597
- Title: CharBERT: Character-aware Pre-trained Language Model
- Title(参考訳): CharBERT: 文字認識事前学習言語モデル
- Authors: Wentao Ma, Yiming Cui, Chenglei Si, Ting Liu, Shijin Wang, Guoping Hu
- Abstract要約: 本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
- 参考スコア(独自算出の注目度): 36.9333890698306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most pre-trained language models (PLMs) construct word representations at
subword level with Byte-Pair Encoding (BPE) or its variations, by which OOV
(out-of-vocab) words are almost avoidable. However, those methods split a word
into subword units and make the representation incomplete and fragile. In this
paper, we propose a character-aware pre-trained language model named CharBERT
improving on the previous methods (such as BERT, RoBERTa) to tackle these
problems. We first construct the contextual word embedding for each token from
the sequential character representations, then fuse the representations of
characters and the subword representations by a novel heterogeneous interaction
module. We also propose a new pre-training task named NLM (Noisy LM) for
unsupervised character representation learning. We evaluate our method on
question answering, sequence labeling, and text classification tasks, both on
the original datasets and adversarial misspelling test sets. The experimental
results show that our method can significantly improve the performance and
robustness of PLMs simultaneously. Pretrained models, evaluation sets, and code
are available at https://github.com/wtma/CharBERT
- Abstract(参考訳): 多くの事前訓練された言語モデル (PLM) は、Byte-Pair Encoding (BPE) またはそのバリエーションを用いてサブワードレベルで単語表現を構築する。
しかし、これらの手法は単語をサブワード単位に分割し、表現を不完全かつ脆弱にする。
本稿では,従来の手法(BERTやRoBERTaなど)を改良したCharBERTという文字認識事前学習言語モデルを提案する。
まず, 逐次的な文字表現から各トークンに対する文脈的単語埋め込みを構築し, 新たな不均質な対話モジュールにより, 文字表現とサブワード表現を融合する。
また,教師なし文字表現学習のためのNLM(Noisy LM)という事前学習タスクを提案する。
本手法は,質問応答,シーケンスラベリング,テキスト分類のタスクにおいて,元のデータセットと逆スペルテストセットの両方で評価する。
実験の結果,plmの性能とロバスト性を同時に向上できることがわかった。
事前訓練されたモデル、評価セット、コードはhttps://github.com/wtma/CharBERTで入手できる。
関連論文リスト
- From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Models In a Spelling Bee: Language Models Implicitly Learn the Character
Composition of Tokens [22.55706811131828]
事前訓練された言語モデルの埋め込み層を探索する。
モデルが単語全体とサブワードトークンの内部文字構成を学習することを示す。
論文 参考訳(メタデータ) (2021-08-25T11:48:05Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。