論文の概要: NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging
- arxiv url: http://arxiv.org/abs/2112.00405v1
- Date: Wed, 1 Dec 2021 10:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 13:29:54.506127
- Title: NER-BERT: A Pre-trained Model for Low-Resource Entity Tagging
- Title(参考訳): NER-BERT:低リソースエンティティタグの事前トレーニングモデル
- Authors: Zihan Liu, Feijun Jiang, Yuxiang Hu, Chen Shi, Pascale Fung
- Abstract要約: 比較的高品質な大規模NERコーパスを構築し,生成したデータセットに基づいてNER-BERTモデルを事前学習する。
実験結果から,当社の事前学習モデルは,低リソースシナリオにおけるBERTと他の強力なベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 40.57720568571513
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Named entity recognition (NER) models generally perform poorly when large
training datasets are unavailable for low-resource domains. Recently,
pre-training a large-scale language model has become a promising direction for
coping with the data scarcity issue. However, the underlying discrepancies
between the language modeling and NER task could limit the models' performance,
and pre-training for the NER task has rarely been studied since the collected
NER datasets are generally small or large but with low quality. In this paper,
we construct a massive NER corpus with a relatively high quality, and we
pre-train a NER-BERT model based on the created dataset. Experimental results
show that our pre-trained model can significantly outperform BERT as well as
other strong baselines in low-resource scenarios across nine diverse domains.
Moreover, a visualization of entity representations further indicates the
effectiveness of NER-BERT for categorizing a variety of entities.
- Abstract(参考訳): 名前付きエンティティ認識(ner)モデルは、低リソースドメインで大規模なトレーニングデータセットが利用できない場合、一般的にはパフォーマンスが悪い。
近年,大規模言語モデルの事前学習は,データ不足問題に対処する上で有望な方向となっている。
しかし、言語モデリングとNERタスクの相違によりモデルの性能が制限される可能性があり、収集されたNERデータセットは一般的に小さいか大きいが品質が低いため、NERタスクの事前学習はめったに行われていない。
本稿では,比較的高品質な大規模NERコーパスを構築し,作成したデータセットに基づいてNER-BERTモデルを事前学習する。
実験結果から,この事前学習モデルは,9つのドメインにわたる低リソースシナリオにおいて,BERTと他の強力なベースラインを著しく上回ることを示す。
さらに、エンティティ表現の可視化は、さまざまなエンティティを分類するためのNER-BERTの有効性をさらに示す。
関連論文リスト
- Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models [0.0]
Few-Shot PromptingやIn-context Learningは、モデルが最小限の例でエンティティを認識できるようにする。
NERタスクにおけるGPT-4のような最先端モデルの評価を行い、その数ショットのパフォーマンスと完全に教師付きベンチマークを比較した。
論文 参考訳(メタデータ) (2024-08-28T13:42:28Z) - What do we Really Know about State of the Art NER? [0.0]
我々は、一般的なデータセットを用いて、NERを広範囲に評価する。
我々は、元のテストセットの小さな摂動を通して、新しい6つの対角テストセットを生成する。
ランダムに生成されたトレイン/デブ/テストスプリットでモデルをトレーニングおよびテストし、その後、モデルを特定のジャンルでトレーニングするが、トレーニングでは見られないジャンルをテストする実験を行った。
論文 参考訳(メタデータ) (2022-04-29T18:35:53Z) - RockNER: A Simple Method to Create Adversarial Examples for Evaluating
the Robustness of Named Entity Recognition Models [32.806292167848156]
名前付きエンティティ認識モデルのロバスト性を評価するためにRockNERを提案する。
ターゲットエンティティを、Wikidataの同じセマンティッククラスの他のエンティティに置き換える。
文脈レベルでは、事前訓練された言語モデルを用いて単語置換を生成する。
論文 参考訳(メタデータ) (2021-09-12T21:30:21Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - One Model to Recognize Them All: Marginal Distillation from NER Models
with Different Tag Sets [30.445201832698192]
名前付きエンティティ認識(NER)は、現代の言語理解パイプラインの基本コンポーネントである。
本稿では,不均一なタグセットを持つ資源から統一NERモデルを訓練するための限界蒸留(MARDI)手法を提案する。
論文 参考訳(メタデータ) (2020-04-10T17:36:27Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。