論文の概要: Rethinking the Value of Gazetteer in Chinese Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2207.02802v1
- Date: Wed, 6 Jul 2022 16:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:12:55.798079
- Title: Rethinking the Value of Gazetteer in Chinese Named Entity Recognition
- Title(参考訳): 名前付きエンティティ認識におけるガゼッタの価値の再考
- Authors: Qianglong Chen, Xiangji Zeng, Jiangang Zhu, Yin Zhang, Bojia Lin, Yang
Yang, Daxin Jiang
- Abstract要約: 筆者らはまず, ガゼッタ強化NERモデルのいくつかの共通プラクティスの有効性を再検討した。
次に,モデル性能とガゼッタ特性の関係を評価するために,一連の詳細な解析を行った。
- 参考スコア(独自算出の注目度): 34.8877220568968
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gazetteer is widely used in Chinese named entity recognition (NER) to enhance
span boundary detection and type classification. However, to further understand
the generalizability and effectiveness of gazetteers, the NLP community still
lacks a systematic analysis of the gazetteer-enhanced NER model. In this paper,
we first re-examine the effectiveness several common practices of the
gazetteer-enhanced NER models and carry out a series of detailed analysis to
evaluate the relationship between the model performance and the gazetteer
characteristics, which can guide us to build a more suitable gazetteer. The
findings of this paper are as follows: (1) the gazetteer has improved the most
situations where the dataset is difficult to learn well for the conventional
NER model. (2) the performance of model greatly benefits from the high-quality
pre-trained lexeme embeddings. (3) a good gazetteer should cover more entities
that can be matched in both the training set and testing set.
- Abstract(参考訳): Gazetteerは、境界検出と型分類を強化するために、中国語のエンティティ認識(NER)で広く使われている。
しかしながら、ガゼッタの一般化性と有効性をさらに理解するために、NLPコミュニティは依然としてガゼッタ強化NERモデルの体系的分析を欠いている。
本稿では,まず,ガゼッタ強化NERモデルの有効性を再検討し,モデル性能とガゼッタ特性の関係を評価するための一連の詳細な解析を行い,より適切なガゼッタを構築するための手がかりとなる。
1) 従来のnerモデルでは, データセットの学習が難しい状況において, ガゼッタが改善した。
2) モデルの性能は, 高品質なプレトレーニングレキセム埋込みにより大きく向上した。
(3) 優れたガゼッタは、トレーニングセットとテストセットの両方でマッチするより多くのエンティティをカバーするべきである。
関連論文リスト
- Chain-of-Factors Paper-Reviewer Matching [32.86512592730291]
本稿では,意味的・話題的・引用的要因を協調的に考慮した,論文レビューアマッチングのための統一モデルを提案する。
提案したChain-of-Factorsモデルの有効性を,最先端のペーパー-リビューアマッチング手法と科学的事前学習言語モデルと比較した。
論文 参考訳(メタデータ) (2023-10-23T01:29:18Z) - UniversalNER: Targeted Distillation from Large Language Models for Open
Named Entity Recognition [48.977866466971655]
オープンNERのためにChatGPTをはるかに小さなUniversalNERモデルに蒸留する方法を示す。
9つの異なるドメインにわたる43のデータセットからなる、これまでで最大のNERベンチマークを組み立てました。
パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。
論文 参考訳(メタデータ) (2023-08-07T03:39:52Z) - A Multilingual Evaluation of NER Robustness to Adversarial Inputs [0.0]
言語モデルの敵対的評価は典型的には英語のみに焦点をあてる。
本稿では,入力中の小さな摂動に対する頑健性の観点から,名前付きエンティティ認識(NER)の多言語評価を行った。
既存のNERモデルに適応するために,新たなNERモデルをトレーニングするための強化トレーニングデータとして,生成した逆数データセットの一部を用いて既存のNERモデルを改善することが可能か,あるいは微調整データとして検討した。
論文 参考訳(メタデータ) (2023-05-30T10:50:49Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - What do we Really Know about State of the Art NER? [0.0]
我々は、一般的なデータセットを用いて、NERを広範囲に評価する。
我々は、元のテストセットの小さな摂動を通して、新しい6つの対角テストセットを生成する。
ランダムに生成されたトレイン/デブ/テストスプリットでモデルをトレーニングおよびテストし、その後、モデルを特定のジャンルでトレーニングするが、トレーニングでは見られないジャンルをテストする実験を行った。
論文 参考訳(メタデータ) (2022-04-29T18:35:53Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Self-Attention Gazetteer Embeddings for Named-Entity Recognition [3.6138359403454854]
GazSelfAttnは、自己アテンションとマッチスパンエンコーディングを使用して、拡張されたガゼテア埋め込みを構築する新しいガゼテア埋め込みアプローチである。
我々は、オープンソースのWikidataナレッジベースから、ガゼッタリソースを構築する方法を実証する。
論文 参考訳(メタデータ) (2020-04-08T15:31:26Z) - Incorporating Effective Global Information via Adaptive Gate Attention
for Text Classification [13.45504908358177]
複数のベースラインモデルと比較して,単純な統計情報により分類性能が向上することを示す。
本稿では,グローバル情報を用いた適応ゲート注意モデル (AGA+GI) と呼ばれるゲート機構を持つ分類器を提案する。
実験の結果,提案手法はCNNベースの手法やRNNベースの手法よりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:06:37Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。