論文の概要: Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models
- arxiv url: http://arxiv.org/abs/2004.04123v2
- Date: Wed, 13 Jan 2021 18:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 08:54:17.685242
- Title: Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models
- Title(参考訳): entity-switched datasets: 名前付きエンティティ認識モデルのドメイン内ロバスト性監査へのアプローチ
- Authors: Oshin Agarwal, Yinfei Yang, Byron C. Wallace, Ani Nenkova
- Abstract要約: そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
我々は、エンティティに切り替えたデータセットを作成し、元のテキストにある名前のエンティティを、同じタイプの、異なる国家起源の、もっともらしい名前のエンティティに置き換える。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
- 参考スコア(独自算出の注目度): 49.878051587667244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition systems perform well on standard datasets comprising
English news. But given the paucity of data, it is difficult to draw
conclusions about the robustness of systems with respect to recognizing a
diverse set of entities. We propose a method for auditing the in-domain
robustness of systems, focusing specifically on differences in performance due
to the national origin of entities. We create entity-switched datasets, in
which named entities in the original texts are replaced by plausible named
entities of the same type but of different national origin. We find that
state-of-the-art systems' performance vary widely even in-domain: In the same
context, entities from certain origins are more reliably recognized than
entities from elsewhere. Systems perform best on American and Indian entities,
and worst on Vietnamese and Indonesian entities. This auditing approach can
facilitate the development of more robust named entity recognition systems, and
will allow research in this area to consider fairness criteria that have
received heightened attention in other predictive technology work.
- Abstract(参考訳): 名前付きエンティティ認識システムは、英語ニュースを含む標準データセットでよく機能する。
しかし、データの曖昧さを考えると、多様な実体の認識に関してシステムの堅牢性に関する結論を引き出すのは難しい。
そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
私たちは、エンティティスイッチ付きデータセットを作成し、元のテキストにある名前付きエンティティを、同じタイプの名前付きエンティティに置き換えます。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
システムは、アメリカとインド、そしてベトナムとインドネシアの組織で最善を尽くしている。
この監査アプローチは、より堅牢な名前付きエンティティ認識システムの開発を促進することができ、この分野の研究は、他の予測技術作業で注目を浴びた公平性基準を検討することができる。
関連論文リスト
- Understand the Dynamic World: An End-to-End Knowledge Informed Framework
for Open Domain Entity State Tracking [15.421012879083463]
Open Domain entity state trackingは、アクション記述が与えられたエンティティの妥当な状態変化(すなわち、[entity]の[属性]は、[before_state]と[after_state])を予測することを目的としています。
モデルがアクションによって引き起こされる任意の数のエンティティ状態変化を予測する必要がある一方で、ほとんどのエンティティはアクションとその属性に暗黙的に関連しており、状態はオープンな語彙から来ているため、それは難しいです。
我々は、オープンドメインのエンティティ状態追跡のための新しいエンドツーエンドの知識インフォームドフレームワーク、KIESTを提案し、関連するエンティティと属性を明示的に取り出す。
論文 参考訳(メタデータ) (2023-04-26T22:45:30Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - Transformer-Based Named Entity Recognition for French Using Adversarial
Adaptation to Similar Domain Corpora [21.036698406367115]
類似の領域や一般コーパスに対する逆適応を用いたフランス語に対する変換器に基づくNERアプローチを提案する。
我々は3つのラベル付きデータセットに対するアプローチを評価し、適応フレームワークが対応する非適応モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-05T23:33:36Z) - Using Domain Knowledge for Low Resource Named Entity Recognition [2.749726993052939]
低リソース領域における名前付きエンティティ認識の性能向上のためにドメイン知識を利用することを提案する。
提案モデルでは、低リソースで名前付きエンティティ認識を処理しながら、異なるドメインでの大規模データ調整を回避する。
論文 参考訳(メタデータ) (2022-03-28T13:26:47Z) - DAMO-NLP at SemEval-2022 Task 11: A Knowledge-based System for
Multilingual Named Entity Recognition [94.1865071914727]
MultiCoNERは、複数の言語に対する短文と低文設定で意味的に曖昧な名前のエンティティを検出することを目的としている。
我々のチームDAMO-NLPは知識に基づくシステムを提案し、ウィキペディアに基づく多言語知識ベースを構築する。
入力文が与えられた場合,本システムは知識ベースから関連コンテキストを効果的に検索する。
我々のシステムはMultiCoNER共有タスクで13トラック中10トラックを獲得した。
論文 参考訳(メタデータ) (2022-03-01T15:29:35Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。