論文の概要: Single versus Multiple Annotation for Named Entity Recognition of
Mutations
- arxiv url: http://arxiv.org/abs/2101.07450v1
- Date: Tue, 19 Jan 2021 03:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 08:01:43.042667
- Title: Single versus Multiple Annotation for Named Entity Recognition of
Mutations
- Title(参考訳): 名前付きエンティティ認識のための単対複数アノテーション
- Authors: David Martinez Iraola and Antonio Jimeno Yepes
- Abstract要約: 我々は,複数のアノテータが必要かどうかを測定するために,1つのアノテータ対2のアノテータによる影響について論じる。
単一アノテータを使用する場合のパフォーマンス損失を評価すると、第2のアノテーションのためにトレーニングデータをサンプルするために異なる方法を適用する。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i)誤ったトレーニングインスタンスを識別する能力、(ii)最先端技術におけるミューテーションNERのパフォーマンスについて、両方のアプローチを評価する。
- 参考スコア(独自算出の注目度): 4.213427823201119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The focus of this paper is to address the knowledge acquisition bottleneck
for Named Entity Recognition (NER) of mutations, by analysing different
approaches to build manually-annotated data. We address first the impact of
using a single annotator vs two annotators, in order to measure whether
multiple annotators are required. Once we evaluate the performance loss when
using a single annotator, we apply different methods to sample the training
data for second annotation, aiming at improving the quality of the dataset
without requiring a full pass. We use held-out double-annotated data to build
two scenarios with different types of rankings: similarity-based and confidence
based. We evaluate both approaches on: (i) their ability to identify training
instances that are erroneous (cases where single-annotator labels differ from
double-annotation after discussion), and (ii) on Mutation NER performance for
state-of-the-art classifiers after integrating the fixes at different
thresholds.
- Abstract(参考訳): 本研究の目的は、手動で注釈付きデータを構築するための異なるアプローチを解析することにより、変異のNER(Named Entity Recognition)の知識獲得ボトルネックを解決することである。
まず,2つのアノテータに対して1つのアノテータを用いることで,複数のアノテータが必要かどうかを測定する。
1つのアノテータを使用する場合のパフォーマンス損失を評価すると、異なる方法を適用して第2のアノテーションのトレーニングデータをサンプリングし、フルパスを必要とせずにデータセットの品質を改善することを目指しています。
保持されたダブルアノテートデータを使用して、異なるタイプのランキングを持つ2つのシナリオを構築します。
i) 誤りであるトレーニングインスタンスを識別する能力(議論後の二重アノテーションとは異なる場合) および(ii) 修正を異なる閾値で統合した後の最先端の分類器に対するミューテーションNER性能について評価する。
- 全文 参考訳へのリンク
関連論文リスト
- Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity
Classification [21.842139093124512]
本稿では,新しいベクトルベース手法であるSEEDを導入する。
クラス内のクレーム-エビデンス対の平均意味的差異を捉えるクラス代表ベクトルをシミュレートできるという仮説に基づいて構築する。
FEVERとSCIFACTデータセットで実施された実験では、数ショット設定で競合するベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2022-05-11T17:23:37Z) - Learning to Imagine: Diversify Memory for Incremental Learning using
Unlabeled Data [69.30452751012568]
本研究では,多様な特徴を適応的に生成することで,経験を多様化する学習可能な特徴生成装置を開発する。
生成したサンプルを前例とセマンティックに整合させるために,意味的コントラスト学習を導入する。
提案手法は, 余分な推論コストを伴わず, 2つのベンチマークで最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-04-19T15:15:18Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [7.183132975698293]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Dealing with Disagreements: Looking Beyond the Majority Vote in
Subjective Annotations [6.546195629698355]
主観的タスクに対するマルチアノテータモデルの有効性について検討する。
このアプローチは、トレーニング前にラベルをアグリゲートするよりも、同じまたは良いパフォーマンスが得られることを示す。
提案手法は予測の不確かさを推定する手段も提供し,従来の手法よりもアノテーションの不一致との相関が良好であることを示す。
論文 参考訳(メタデータ) (2021-10-12T03:12:34Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - View Distillation with Unlabeled Data for Extracting Adverse Drug
Effects from User-Generated Data [21.0706831551535]
本稿では,ソーシャルメディアデータ中の逆薬物反応を同定するアルゴリズムを提案する。
本モデルでは,問題の性質と文脈的単語埋め込みの特性に依存している。
我々は、我々のモデルを、利用可能な最大のADRデータセットで評価する。
論文 参考訳(メタデータ) (2021-05-24T15:38:08Z) - Semi-supervised Long-tailed Recognition using Alternate Sampling [95.93760490301395]
ロングテール認識の主な課題は、データ分布の不均衡とテールクラスにおけるサンプル不足である。
半教師付き長尾認識という新しい認識設定を提案する。
2つのデータセットで、他の競合方法よりも大幅な精度向上を実証します。
論文 参考訳(メタデータ) (2021-05-01T00:43:38Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。