論文の概要: Lex-BERT: Enhancing BERT based NER with lexicons
- arxiv url: http://arxiv.org/abs/2101.00396v1
- Date: Sat, 2 Jan 2021 07:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 12:41:05.455045
- Title: Lex-BERT: Enhancing BERT based NER with lexicons
- Title(参考訳): Lex-BERT: LexiconによるBERTベースのNERの強化
- Authors: Wei Zhu, Daniel Cheung
- Abstract要約: Lex-BERTは、名前付きエンティティ認識タスクのために、中国語のBERTに辞書情報を組み込むものです。
我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。
- 参考スコア(独自算出の注目度): 1.6884834576352221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we represent Lex-BERT, which incorporates the lexicon
information into Chinese BERT for named entity recognition (NER) tasks in a
natural manner. Instead of using word embeddings and a newly designed
transformer layer as in FLAT, we identify the boundary of words in the
sentences using special tokens, and the modified sentence will be encoded
directly by BERT. Our model does not introduce any new parameters and are more
efficient than FLAT. In addition, we do not require any word embeddings
accompanying the lexicon collection. Experiments on Ontonotes and ZhCrossNER
show that our model outperforms FLAT and other baselines.
- Abstract(参考訳): 本研究は,名前付きエンティティ認識(NER)タスクに対して,辞書情報を中国語のBERTに組み込んだLex-BERTを自然な方法で表現する。
単語埋め込みと新たに設計されたトランスフォーマー層をフラットに使用する代わりに、特別なトークンを使って文中の単語の境界を識別し、修正された文はbertによって直接エンコードされる。
我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。
さらに、レキシコンコレクションに付随する単語埋め込みは不要である。
OntonotesとZhCrossNERの実験では、私たちのモデルはFLATや他のベースラインよりも優れています。
関連論文リスト
- SimpleBERT: A Pre-trained Model That Learns to Generate Simple Words [59.142185753887645]
本研究では,テキストの簡易化を継続する事前学習手法を提案する。
我々は、継続事前学習に小規模な単純なテキストデータセットを使用し、簡単な単語を識別するために2つの方法を用いる。
語彙単純化タスクと文簡略化タスクの両方においてBERTを超えるSimpleBERTを得る。
論文 参考訳(メタデータ) (2022-04-16T11:28:01Z) - FiNER: Financial Numeric Entity Recognition for XBRL Tagging [29.99876910165977]
金融ドメインのための新しいエンティティ抽出タスクとしてタグを導入します。
我々は、金のタグ付き1.1M文のデータセットであるFiNER-139をリリースする。
数値表現のサブワード断片化はBERTの性能を損なうことを示す。
論文 参考訳(メタデータ) (2022-03-12T16:43:57Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling [49.3379730319246]
BERTに基づくシーケンスラベリングタスクのためのプラグインレキシコンの組込み手法であるDyLexを提案する。
語彙を更新しながら表現を再学習しないように,単語に依存しないタグ埋め込みを採用する。
最後に,提案フレームワークのプラグイン性を保証するために,協調的注意に基づく知識融合機構を導入する。
論文 参考訳(メタデータ) (2021-09-18T03:15:49Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter [15.336753753889035]
既存のメソッドは、浅いランダムなシーケンス層を介してレキシコン機能を融合するだけで、BERTの下位層に統合しない。
本稿では,中国語シーケンスラベリングのためのLexicon Enhanced BERT (LEBERT)を提案する。
既存の手法と比較して, bert の下位層において, 深いレキシコン知識の融合を実現する。
論文 参考訳(メタデータ) (2021-05-15T06:13:39Z) - Evaluation of BERT and ALBERT Sentence Embedding Performance on
Downstream NLP Tasks [4.955649816620742]
本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。
我々は、Sentence-BERT (SBERT) と呼ばれるシアムとトリプルトネットワーク構造を持つBERTネットワークを改良し、BERTをALBERTに置き換え、Sentence-ALBERT (SALBERT) を作成する。
論文 参考訳(メタデータ) (2021-01-26T09:14:06Z) - CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary
Representations From Characters [14.956626084281638]
本稿では,ワードピースシステムを完全に廃止し,代わりに文字を照会して全単語を表現するために,文字CNNモジュールを使用するBERTの新たな変種を提案する。
この新モデルにより,様々な医療領域タスクにおけるBERTの性能が向上すると同時に,頑健で単語レベルのオープン語彙表現が実現できることが示唆された。
論文 参考訳(メタデータ) (2020-10-20T15:58:53Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。