論文の概要: Automated Testing and Improvement of Named Entity Recognition Systems
- arxiv url: http://arxiv.org/abs/2308.07937v1
- Date: Mon, 14 Aug 2023 03:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:02:02.315996
- Title: Automated Testing and Improvement of Named Entity Recognition Systems
- Title(参考訳): 名前付きエンティティ認識システムの自動テストと改善
- Authors: Boxi Yu, Yiyan Hu, Qiuyang Mang, Wenhan Hu, Pinjia He
- Abstract要約: TINは、NERシステムの自動テストと修復のための新しい、広く適用可能なアプローチである。
2つのSOTA NERモデルと2つの商用NER API、すなわちAzure NERとAWS NERをテストするためにTINを使用します。
TINは試験中の4つのシステムに対して高いエラー低減率(26.8%-50.6%)を達成し、1,877件のNERエラーのうち1,056件の修復に成功した。
- 参考スコア(独自算出の注目度): 3.8293110324859505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named entity recognition (NER) systems have seen rapid progress in recent
years due to the development of deep neural networks. These systems are widely
used in various natural language processing applications, such as information
extraction, question answering, and sentiment analysis. However, the complexity
and intractability of deep neural networks can make NER systems unreliable in
certain circumstances, resulting in incorrect predictions. For example, NER
systems may misidentify female names as chemicals or fail to recognize the
names of minority groups, leading to user dissatisfaction. To tackle this
problem, we introduce TIN, a novel, widely applicable approach for
automatically testing and repairing various NER systems. The key idea for
automated testing is that the NER predictions of the same named entities under
similar contexts should be identical. The core idea for automated repairing is
that similar named entities should have the same NER prediction under the same
context. We use TIN to test two SOTA NER models and two commercial NER APIs,
i.e., Azure NER and AWS NER. We manually verify 784 of the suspicious issues
reported by TIN and find that 702 are erroneous issues, leading to high
precision (85.0%-93.4%) across four categories of NER errors: omission,
over-labeling, incorrect category, and range error. For automated repairing,
TIN achieves a high error reduction rate (26.8%-50.6%) over the four systems
under test, which successfully repairs 1,056 out of the 1,877 reported NER
errors.
- Abstract(参考訳): 名前付きエンティティ認識(NER)システムは、ディープニューラルネットワークの開発により近年急速に進歩している。
これらのシステムは、情報抽出、質問応答、感情分析など、様々な自然言語処理アプリケーションで広く使われている。
しかし、ディープニューラルネットワークの複雑さと難解さは、ある状況下でNERシステムを信頼できないものにし、誤った予測をもたらす。
例えば、NERシステムは女性の名前を化学薬品と誤識別したり、少数派の名前の認識に失敗したりして、ユーザの不満を招きかねない。
この問題に対処するために,様々なNERシステムの自動テストと修復のための新しい,広く適用可能なアプローチであるTINを導入する。
自動テストの鍵となる考え方は、同じ名前のエンティティの同じコンテキスト下でのNER予測が同一であることである。
自動修復の基本的な考え方は、同じコンテキスト下で、同じ名前のエンティティが同じNER予測を持つことである。
2つのSOTA NERモデルと2つの商用NER API、すなわちAzure NERとAWS NERをテストするためにTINを使用します。
我々はTINが報告した疑わしい問題の784を手作業で検証し、702は誤問題であり、NERエラーの4つのカテゴリ(省略、オーバーラベル、誤分類、レンジエラー)に高い精度(85.0%-93.4%)をもたらす。
自動修理では、TINは試験中の4つのシステムに対して高いエラー低減率(26.8%-50.6%)を達成し、1,877件のNERエラーのうち1,056件の修復に成功した。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Uncertainty Estimation on Sequential Labeling via Uncertainty Transmission [21.426225910784364]
NERタスクは、エンティティを抽出し、テキストが与えられたラベルを予測することを目的としている。
本研究は,NER予測の不確実性スコアを推定することを目的としたUE-NERに焦点を当てる。
抽出されたエンティティに対する不確実性スコアを推定するための逐次ラベル付け後ネットワーク(SLPN)を提案する。
論文 参考訳(メタデータ) (2023-11-15T06:36:29Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - PromptNER: Prompting For Named Entity Recognition [27.501500279749475]
本稿では,少数ショットとクロスドメインNERのための最先端アルゴリズムであるPromptNERを紹介する。
PromptNERは、ConLLデータセットのF1スコアの4%(絶対)改善、GENIAデータセットの9%(絶対)改善、FewNERDデータセットの4%(絶対)改善を実現している。
論文 参考訳(メタデータ) (2023-05-24T07:38:24Z) - Neuroevolutionary algorithms driven by neuron coverage metrics for
semi-supervised classification [60.60571130467197]
一部の機械学習アプリケーションでは、ラベル付けされていないインスタンスが豊富であるのに対して、教師付き分類のためのラベル付きインスタンスの可用性は制限されている。
本稿では、ニューラルネットワークアーキテクチャ上で計算されたニューラルネットワークカバレッジメトリクスを用いて、未ラベルのインスタンスを利用する神経進化的アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-05T23:38:44Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - DEXTER: Deep Encoding of External Knowledge for Named Entity Recognition
in Virtual Assistants [10.500933545429202]
NERが重要なコンポーネントであるインテリジェント音声アシスタントでは、ユーザや音声認識エラーのため、NERへの入力がうるさい場合がある。
これらの問題に対処するためのNERシステムについて述べる。
本手法は, セマンティック解析などの関連タスクを改善し, エラー率を最大5%向上することを示す。
論文 参考訳(メタデータ) (2021-08-15T00:14:47Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - ASTRAL: Adversarial Trained LSTM-CNN for Named Entity Recognition [16.43239147870092]
本稿では,モデル構造とトレーニングプロセスの両方から,現在のNER法を改善するためのLSTM-CNN(ASTRAL)システムを提案する。
提案システムは,CoNLL-03,OntoNotes 5.0,WNUT-17の3つのベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2020-09-02T13:15:25Z) - Bayesian x-vector: Bayesian Neural Network based x-vector System for
Speaker Verification [71.45033077934723]
我々はディープニューラルネットワーク(DNN)xベクトル話者検証システムにベイズニューラルネットワーク(BNN)を組み込む。
BNNによって提供される重みの不確実性モデリングにより、システムは評価データにより良い一般化を期待できる。
その結果、BNNの相対的なEERの2.66%と2.32%の減少により、短文と短文のドメイン評価が可能であることが判明した。
論文 参考訳(メタデータ) (2020-04-08T14:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。