論文の概要: Validating Label Consistency in NER Data Annotation
- arxiv url: http://arxiv.org/abs/2101.08698v1
- Date: Thu, 21 Jan 2021 16:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 08:07:05.250413
- Title: Validating Label Consistency in NER Data Annotation
- Title(参考訳): NERデータアノテーションにおけるラベル一貫性の検証
- Authors: Qingkai Zeng, Mengxia Yu, Wenhao Yu, Tianwen Jiang, Tim Weninger and
Meng Jiang
- Abstract要約: 本研究では,ラベル(in-)一貫性とNERモデル性能の関係を検討する経験的手法を提案する。
実験では,SCIERCおよびCoNLL03データセットにおけるテストデータのラベルの不整合を同定した。
- 参考スコア(独自算出の注目度): 34.24378200299595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data annotation plays a crucial role in ensuring your named entity
recognition (NER) projects are trained with the right information to learn
from. Producing the most accurate labels is a challenge due to the complexity
involved with annotation. Label inconsistency between multiple subsets of data
annotation (e.g., training set and test set, or multiple training subsets) is
an indicator of label mistakes. In this work, we present an empirical method to
explore the relationship between label (in-)consistency and NER model
performance. It can be used to validate the label consistency (or catches the
inconsistency) in multiple sets of NER data annotation. In experiments, our
method identified the label inconsistency of test data in SCIERC and CoNLL03
datasets (with 26.7% and 5.4% label mistakes). It validated the consistency in
the corrected version of both datasets.
- Abstract(参考訳): データアノテーションは、名前付きエンティティ認識(ner)プロジェクトが学習する適切な情報で訓練されることを保証する上で重要な役割を担います。
最も正確なラベルを生成することは、アノテーションに関する複雑さのために難しい。
データアノテーションの複数のサブセット(例えば、トレーニングセットとテストセット、または複数のトレーニングサブセット)間のラベルの不整合はラベルミスの指標である。
本稿では,ラベル(イン)一貫性とnerモデル性能の関係を明らかにするための経験的手法を提案する。
複数のNERデータアノテーションセットでラベルの一貫性を検証する(あるいは一貫性をキャッチする)ために使用できる。
実験では,SCIERCとCoNLL03データセット(26.7%,ラベルミス5.4%)におけるテストデータのラベルの不一致を同定した。
両方のデータセットの修正バージョンにおける一貫性を検証する。
関連論文リスト
- Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - You can't handle the (dirty) truth: Data-centric insights improve pseudo-labeling [60.27812493442062]
擬似ラベル法を改善するためにラベル付きデータ品質を調査することが重要であることを示す。
具体的には、擬似ラベルの拡張のために、DIPSと呼ばれる新しいデータキャラクタリゼーションと選択フレームワークを導入する。
本研究では,多種多様な実世界のデータセットを対象とした擬似ラベル手法に対するDIPSの適用性と影響を実証する。
論文 参考訳(メタデータ) (2024-06-19T17:58:40Z) - Don't Waste a Single Annotation: Improving Single-Label Classifiers
Through Soft Labels [7.396461226948109]
目的とする単一ラベル分類タスクに対する共通データアノテーションとトレーニング手法の限界に対処する。
以上の結果から,信頼性,二次ラベル,不一致などの付加的なアノテータ情報を用いて,ソフトラベルを効果的に生成できることが示唆された。
論文 参考訳(メタデータ) (2023-11-09T10:47:39Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Identifying Incorrect Annotations in Multi-Label Classification Data [14.94741409713251]
マルチラベル分類データセットにおけるラベルの誤用例を見つけるアルゴリズムについて検討する。
本稿では、この設定に対する信頼学習フレームワークの拡張と、ラベルエラーのある事例を正しくラベル付けされたものよりも格付けするラベル品質スコアを提案する。
論文 参考訳(メタデータ) (2022-11-25T05:03:56Z) - Detecting Label Errors in Token Classification Data [22.539748563923123]
トークン分類データセットにラベルエラーを含む文を見つけるタスクについて検討する。
予測されたクラス確率に基づいてトークン/文をスコアする,11種類の簡単な手法について検討する。
異なるトークン分類モデルに適用した場合にラベルエラーを含む文を一貫して検出する,単純かつ効果的な手法を同定する。
論文 参考訳(メタデータ) (2022-10-08T05:14:22Z) - Acknowledging the Unknown for Multi-label Learning with Single Positive
Labels [65.5889334964149]
伝統的に、全ての無注釈ラベルは、単一正のマルチラベル学習(SPML)において負のラベルとして仮定される。
本研究では, 予測確率のエントロピーを最大化するエントロピー最大化(EM)損失を提案する。
非通知ラベルの正負ラベル不均衡を考慮し、非対称耐性戦略とより精密な監視を行うセルフペースト手順を備えた非対称擬似ラベル(APL)を提案する。
論文 参考訳(メタデータ) (2022-03-30T11:43:59Z) - Enhancing Label Correlation Feedback in Multi-Label Text Classification
via Multi-Task Learning [6.1538971100140145]
ラベル相関フィードバックを高めるために,マルチタスク学習を用いた新しい手法を提案する。
本稿では,ラベル相関学習を強化するための2つの補助ラベル共起予測タスクを提案する。
論文 参考訳(メタデータ) (2021-06-06T12:26:14Z) - Federated Semi-Supervised Learning with Inter-Client Consistency &
Disjoint Learning [78.88007892742438]
ラベル付きデータの位置に基づくFSSL(Federated Semi-Supervised Learning)の2つの重要なシナリオについて検討する。
フェデレートマッチング(FedMatch)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T09:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。