論文の概要: Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations
- arxiv url: http://arxiv.org/abs/2402.01423v1
- Date: Fri, 2 Feb 2024 14:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:02:30.756819
- Title: Different Tastes of Entities: Investigating Human Label Variation in
Named Entity Annotations
- Title(参考訳): エンティティの異なる味:名前付きエンティティアノテーションにおけるラベルの変動について
- Authors: Siyao Peng, Zihang Sun, Sebastian Loftus, Barbara Plank
- Abstract要約: 本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
- 参考スコア(独自算出の注目度): 23.059491714512077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a key information extraction task with a
long-standing tradition. While recent studies address and aim to correct
annotation errors via re-labeling efforts, little is known about the sources of
human label variation, such as text ambiguity, annotation error, or guideline
divergence. This is especially the case for high-quality datasets and beyond
English CoNLL03. This paper studies disagreements in expert-annotated named
entity datasets for three languages: English, Danish, and Bavarian. We show
that text ambiguity and artificial guideline changes are dominant factors for
diverse annotations among high-quality revisions. We survey student annotations
on a subset of difficult entities and substantiate the feasibility and
necessity of manifold annotations for understanding named entity ambiguities
from a distributional perspective.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、長年の伝統を持つ重要な情報抽出タスクである。
近年の研究では、再ラベルによるアノテーションエラーの修正が試みられているが、テキストの曖昧さ、アノテーションの誤り、ガイドラインのばらつきなど、人間のラベルの変化の原因についてはほとんど分かっていない。
これは特に高品質なデータセットで、英語のCoNLL03を超えています。
本稿では,3言語(英語,デンマーク語,バイエルン語)のエキスパートアノテーション付きエンティティデータセットの相違について検討する。
テキストのあいまいさと人為的ガイドラインの変更が,高品質なリビジョンにおける多彩なアノテーションの主要な要因であることを示す。
難しいエンティティのサブセットに対する学生のアノテーションを調査し,分布的観点から名前付きエンティティの曖昧さを理解するための多様体的アノテーションの有効性と必要性を検証した。
関連論文リスト
- We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - ezCoref: Towards Unifying Annotation Guidelines for Coreference
Resolution [28.878540389202367]
クラウドソーシングに優しいコア参照アノテーション方法論であるezCorefを,アノテーションツールと対話型チュートリアルで構築する。
ezCorefを使用して、既存の7つの英語コアデータセット(フィクション、ニュース、その他複数のドメイン)から240のパスを再注釈し、これらのデータセットで同じように扱われるケースのみをアノテータに教えます。
驚くべきことに、十分な品質のアノテーションはすでに達成可能であり(群衆と専門家のアノテーションの間では>90%の合意)、広範囲のトレーニングがなくても使えます。
論文 参考訳(メタデータ) (2022-10-13T17:09:59Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Monolingual alignment of word senses and definitions in lexicographical
resources [0.0]
この論文の焦点は、辞書、特に辞書のアライメントである。
最初の課題は、2つの異なる単言語辞書における見出しの感覚定義を考慮し、最適なアライメントを見つけることである。
このベンチマークは、単語センスアライメントシステムの評価に使用することができる。
論文 参考訳(メタデータ) (2022-09-06T13:09:52Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - Two Contrasting Data Annotation Paradigms for Subjective NLP Tasks [17.033055327465238]
データアノテーションのためのコントラストパラダイムを2つ提案する。
記述的パラダイムはアノテータの主観性を促進するが、規範的パラダイムはそれを妨げている。
データセット作成者は、データセットの意図した使用を促進するために、どちらか一方を明示的に目標にすべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2021-12-14T15:38:22Z) - DaN+: Danish Nested Named Entities and Lexical Normalization [18.755176247223616]
本稿では,デンマークのネスト付き名前付きエンティティ(NE)と語彙正規化のための,新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介する。
我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。
以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。
論文 参考訳(メタデータ) (2021-05-24T14:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。