論文の概要: Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models
- arxiv url: http://arxiv.org/abs/2004.04123v2
- Date: Wed, 13 Jan 2021 18:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:54:17.685242
- Title: Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models
- Title(参考訳): entity-switched datasets: 名前付きエンティティ認識モデルのドメイン内ロバスト性監査へのアプローチ
- Authors: Oshin Agarwal, Yinfei Yang, Byron C. Wallace, Ani Nenkova
- Abstract要約: そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
我々は、エンティティに切り替えたデータセットを作成し、元のテキストにある名前のエンティティを、同じタイプの、異なる国家起源の、もっともらしい名前のエンティティに置き換える。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
- 参考スコア(独自算出の注目度): 49.878051587667244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition systems perform well on standard datasets comprising
English news. But given the paucity of data, it is difficult to draw
conclusions about the robustness of systems with respect to recognizing a
diverse set of entities. We propose a method for auditing the in-domain
robustness of systems, focusing specifically on differences in performance due
to the national origin of entities. We create entity-switched datasets, in
which named entities in the original texts are replaced by plausible named
entities of the same type but of different national origin. We find that
state-of-the-art systems' performance vary widely even in-domain: In the same
context, entities from certain origins are more reliably recognized than
entities from elsewhere. Systems perform best on American and Indian entities,
and worst on Vietnamese and Indonesian entities. This auditing approach can
facilitate the development of more robust named entity recognition systems, and
will allow research in this area to consider fairness criteria that have
received heightened attention in other predictive technology work.
- Abstract(参考訳): 名前付きエンティティ認識システムは、英語ニュースを含む標準データセットでよく機能する。
しかし、データの曖昧さを考えると、多様な実体の認識に関してシステムの堅牢性に関する結論を引き出すのは難しい。
そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
私たちは、エンティティスイッチ付きデータセットを作成し、元のテキストにある名前付きエンティティを、同じタイプの名前付きエンティティに置き換えます。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
システムは、アメリカとインド、そしてベトナムとインドネシアの組織で最善を尽くしている。
この監査アプローチは、より堅牢な名前付きエンティティ認識システムの開発を促進することができ、この分野の研究は、他の予測技術作業で注目を浴びた公平性基準を検討することができる。
関連論文リスト
- LLM-DER:A Named Entity Recognition Method Based on Large Language Models for Chinese Coal Chemical Domain [4.639851504108679]
中国語におけるドメイン固有エンティティ認識問題に対して,Large Language Models (LLMs) ベースのエンティティ認識フレームワーク LLM-DER を提案する。
LLMs-DERは、LCMを通してエンティティタイプを含む関係のリストを生成し、誤認識されたエンティティを削除するための妥当性と一貫性の評価方法を設計する。
本稿では,Resumeデータセットと自己構築石炭化学データセットCoalを用いた実験結果から,LLM-DERがドメイン固有エンティティ認識において優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-16T08:28:05Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition [100.39728263079736]
実世界のエンティティ認識のための包括的なデータセットであるEntity6Kを紹介する。
26のカテゴリに5700のエンティティがあり、それぞれがアノテーション付きの5つの人間認証イメージによってサポートされている。
論文 参考訳(メタデータ) (2024-03-19T01:07:53Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Transformer-Based Named Entity Recognition for French Using Adversarial
Adaptation to Similar Domain Corpora [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたフランス語に対する変換器に基づくNERアプローチを提案する。
我々は3つのラベル付きデータセットに対するアプローチを評価し、適応フレームワークが対応する非適応モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-05T23:33:36Z) - Using Domain Knowledge for Low Resource Named Entity Recognition [2.749726993052939]
低リソース領域における名前付きエンティティ認識の性能向上のためにドメイン知識を利用することを提案する。
提案モデルでは、低リソースで名前付きエンティティ認識を処理しながら、異なるドメインでの大規模データ調整を回避する。
論文 参考訳(メタデータ) (2022-03-28T13:26:47Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。