論文の概要: CoNLL#: Fine-grained Error Analysis and a Corrected Test Set for CoNLL-03 English
- arxiv url: http://arxiv.org/abs/2405.11865v1
- Date: Mon, 20 May 2024 08:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:44:14.804480
- Title: CoNLL#: Fine-grained Error Analysis and a Corrected Test Set for CoNLL-03 English
- Title(参考訳): CoNLL#: きめ細かいエラー解析とCoNLL-03英語の修正テストセット
- Authors: Andrew Rueda, Elena Álvarez Mellado, Constantine Lignos,
- Abstract要約: 高い性能のNERモデルの試験結果を調べ,その性能を詳細に評価する。
私たちはCoNLL#を紹介します。これはテストセットの新しい修正バージョンで、その体系的かつ最も一般的なエラーに対処します。
- 参考スコア(独自算出の注目度): 8.521336544401015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern named entity recognition systems have steadily improved performance in the age of larger and more powerful neural models. However, over the past several years, the state-of-the-art has seemingly hit another plateau on the benchmark CoNLL-03 English dataset. In this paper, we perform a deep dive into the test outputs of the highest-performing NER models, conducting a fine-grained evaluation of their performance by introducing new document-level annotations on the test set. We go beyond F1 scores by categorizing errors in order to interpret the true state of the art for NER and guide future work. We review previous attempts at correcting the various flaws of the test set and introduce CoNLL#, a new corrected version of the test set that addresses its systematic and most prevalent errors, allowing for low-noise, interpretable error analysis.
- Abstract(参考訳): 現代のエンティティ認識システムは、より大きくより強力なニューラルモデルの時代において、パフォーマンスを着実に改善している。
しかし、過去数年間、最先端の言語は、ベンチマークのCoNLL-03英語データセットで別の高原に到達したようだ。
本稿では,高パフォーマンスなNERモデルのテスト出力を深く掘り下げ,テストセットに新たな文書レベルのアノテーションを導入することで,その性能を詳細に評価する。
我々は、NERの真の最先端を解釈し、将来の作業を導くために、エラーを分類することで、F1スコアを超えます。
我々は、テストセットの様々な欠陥を修正するための以前の試みをレビューし、CoNLL#を新たに修正したテストセットを紹介し、その体系的かつ最も一般的なエラーに対処し、低ノイズで解釈可能なエラー解析を可能にする。
関連論文リスト
- Understanding and Mitigating Classification Errors Through Interpretable
Token Patterns [58.91023283103762]
容易に解釈可能な用語でエラーを特徴付けることは、分類器が体系的なエラーを起こす傾向にあるかどうかを洞察する。
正しい予測と誤予測を区別するトークンのパターンを発見することを提案する。
提案手法であるPremiseが実際によく動作することを示す。
論文 参考訳(メタデータ) (2023-11-18T00:24:26Z) - CleanCoNLL: A Nearly Noise-Free Named Entity Recognition Dataset [3.3162484539136416]
英語のCoNLL-03における全ラベルの7.0%を補正する自動整合性チェックを補助する包括的ラバーリング手法を提案する。
実験結果から, 最先端の手法がF1スコア(97.1%)をはるかに上回っているだけでなく, アノテーションノイズによる誤りとして誤算された正確な予測のシェアが47%から6%に低下していることが判明した。
これは、我々の資源が最先端モデルによる残差を分析するのに適しており、理論上界が高資源であっても、粗粒NERがまだ未定であることを示唆している。
論文 参考訳(メタデータ) (2023-10-24T22:34:43Z) - Towards Real-World Test-Time Adaptation: Tri-Net Self-Training with
Balanced Normalization [52.03927261909813]
既存の研究は、非I.d.データストリームと連続的なドメインシフトの下での実際のテスト時間適応を主に検討している。
我々は、最先端手法の失敗は、まず不均衡なテストデータに正規化層を無差別に適応させることによって生じると論じる。
TRIBEと呼ばれる最後のTTAモデルは、バランスの取れたバッチノーム層を持つトリネットアーキテクチャ上に構築されている。
論文 参考訳(メタデータ) (2023-09-26T14:06:26Z) - Towards More Realistic Evaluation for Neural Test Oracle Generation [11.005450298374285]
単体テストはソフトウェアの品質を守り、改善するのに役立ちますが、作成とメンテナンスにはかなりの時間と労力が必要です。
最近の研究では、ニューラルモデルを利用してテストオラクル、すなわちニューラルテストオラクル生成(NTOG)を生成することが提案されている。
これらの設定は、既存のNTOGアプローチのパフォーマンスの理解を誤解させる可能性がある。
論文 参考訳(メタデータ) (2023-05-26T15:56:57Z) - Pre-trained Embeddings for Entity Resolution: An Experimental Analysis
[Experiment, Analysis & Benchmark] [65.11858854040544]
我々は、17の確立されたベンチマークデータセットに対して、12のポピュラー言語モデルの徹底的な実験分析を行う。
まず、全ての入力エンティティを高密度な埋め込みベクトルに変換するためのベクトル化のオーバーヘッドを評価する。
次に,そのブロッキング性能を調査し,詳細なスケーラビリティ解析を行い,最先端のディープラーニングベースのブロッキング手法と比較する。
第3に、教師なしマッチングと教師なしマッチングの両方に対して、相対的な性能で締めくくります。
論文 参考訳(メタデータ) (2023-04-24T08:53:54Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Context-aware Adversarial Training for Name Regularity Bias in Named
Entity Recognition [8.344476599818826]
NERモデルの正規性バイアスを診断するための新しいテストベッドであるNRBを紹介する。
我々の結果は、我々がテストしたすべての最先端モデルにそのようなバイアスがあることを示唆している。
本稿では,学習可能な敵対的ノイズを一部のエンティティに付加する,新しいモデルに依存しない訓練手法を提案する。
論文 参考訳(メタデータ) (2021-07-24T13:55:35Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。