論文の概要: Single versus Multiple Annotation for Named Entity Recognition of
Mutations
- arxiv url: http://arxiv.org/abs/2101.07450v1
- Date: Tue, 19 Jan 2021 03:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 08:01:43.042667
- Title: Single versus Multiple Annotation for Named Entity Recognition of
Mutations
- Title(参考訳): 名前付きエンティティ認識のための単対複数アノテーション
- Authors: David Martinez Iraola and Antonio Jimeno Yepes
- Abstract要約: 我々は,複数のアノテータが必要かどうかを測定するために,1つのアノテータ対2のアノテータによる影響について論じる。
単一アノテータを使用する場合のパフォーマンス損失を評価すると、第2のアノテーションのためにトレーニングデータをサンプルするために異なる方法を適用する。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i)誤ったトレーニングインスタンスを識別する能力、(ii)最先端技術におけるミューテーションNERのパフォーマンスについて、両方のアプローチを評価する。
- 参考スコア(独自算出の注目度): 4.213427823201119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focus of this paper is to address the knowledge acquisition bottleneck
for Named Entity Recognition (NER) of mutations, by analysing different
approaches to build manually-annotated data. We address first the impact of
using a single annotator vs two annotators, in order to measure whether
multiple annotators are required. Once we evaluate the performance loss when
using a single annotator, we apply different methods to sample the training
data for second annotation, aiming at improving the quality of the dataset
without requiring a full pass. We use held-out double-annotated data to build
two scenarios with different types of rankings: similarity-based and confidence
based. We evaluate both approaches on: (i) their ability to identify training
instances that are erroneous (cases where single-annotator labels differ from
double-annotation after discussion), and (ii) on Mutation NER performance for
state-of-the-art classifiers after integrating the fixes at different
thresholds.
- Abstract(参考訳): 本研究の目的は、手動で注釈付きデータを構築するための異なるアプローチを解析することにより、変異のNER(Named Entity Recognition)の知識獲得ボトルネックを解決することである。
まず,2つのアノテータに対して1つのアノテータを用いることで,複数のアノテータが必要かどうかを測定する。
1つのアノテータを使用する場合のパフォーマンス損失を評価すると、異なる方法を適用して第2のアノテーションのトレーニングデータをサンプリングし、フルパスを必要とせずにデータセットの品質を改善することを目指しています。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i) 誤りであるトレーニングインスタンスを識別する能力(議論後の二重アノテーションとは異なる場合) および(ii) 修正を異なる閾値で統合した後の最先端の分類器に対するミューテーションNER性能について評価する。
関連論文リスト
- Do Smaller Language Models Answer Contextualised Questions Through
Memorisation Or Generalisation? [8.51696622847778]
モデルは、非常に類似したトレーニングサンプルから直接記憶される評価サンプルのラベルを予測できる能力と、しばしば区別される。
本稿では,本モデルが解答を記憶する可能性が極めて低い評価サンプルを同定する手法を提案する。
論文 参考訳(メタデータ) (2023-11-21T04:06:08Z) - ACTOR: Active Learning with Annotator-specific Classification Heads to
Embrace Human Label Variation [35.10805667891489]
積極的学習は、アノテーションのコスト削減戦略として、不一致から学ぶという文脈で完全には研究されていない。
アクティブな学習環境では、不確実性推定の観点から、マルチヘッドモデルの方がシングルヘッドモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-10-23T14:26:43Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Multimodal Fusion Interactions: A Study of Human and Automatic
Quantification [116.55145773123132]
我々は、人間がマルチモーダル相互作用の2つの分類に注釈を付ける方法を研究する。
本稿では,部分的および対実的ラベルのアノテーションを情報分解に自動的に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T03:44:50Z) - Class-Specific Variational Auto-Encoder for Content-Based Image
Retrieval [95.42181254494287]
本稿では,変分自動エンコーダ(VAE)に対する正規化損失を提案する。
その結果、モデルは、関心のクラスに属するデータを他のあらゆる可能性から識別することを学ぶ。
実験の結果,提案手法はドメイン内およびドメイン外検索における競合よりも優れていた。
論文 参考訳(メタデータ) (2023-04-23T19:51:25Z) - Utilizing supervised models to infer consensus labels and their quality
from data with multiple annotators [16.79939549201032]
分類のための実世界のデータは、しばしば複数のアノテータによってラベル付けされる。
このようなデータを推定するための簡単なアプローチであるCROWDLABを紹介します。
提案手法は,(1)-(3)に対して,多くの代替アルゴリズムよりも優れた推定値を提供する。
論文 参考訳(メタデータ) (2022-10-13T07:54:07Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Few-shot Learning for Multi-label Intent Detection [59.66787898744991]
State-of-the-art work estimates label-instancelevance scores and using threshold to select multiple associated intent labels。
2つのデータセットの実験により、提案モデルが1ショットと5ショットの両方の設定において強いベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2020-10-11T14:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。