論文の概要: Familiarity: Better Evaluation of Zero-Shot Named Entity Recognition by Quantifying Label Shifts in Synthetic Training Data
- arxiv url: http://arxiv.org/abs/2412.10121v1
- Date: Fri, 13 Dec 2024 13:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:14.063015
- Title: Familiarity: Better Evaluation of Zero-Shot Named Entity Recognition by Quantifying Label Shifts in Synthetic Training Data
- Title(参考訳): Familiarity: 合成学習データにおけるラベルシフトの定量化によるゼロショット固有認識の精度向上
- Authors: Jonas Golde, Patrick Haller, Max Ploner, Fabio Barth, Nicolaas Jedema, Alan Akbik,
- Abstract要約: ゼロショットNERに対して報告されたF1スコアは、これらのアプローチの真の能力を過大評価している。
本稿では,学習と評価におけるエンティティタイプ間のセマンティックな類似性の両方をキャプチャする,ファミリアリティ(Familiarity)を提案する。
- 参考スコア(独自算出の注目度): 3.124534275448252
- License:
- Abstract: Zero-shot named entity recognition (NER) is the task of detecting named entities of specific types (such as 'Person' or 'Medicine') without any training examples. Current research increasingly relies on large synthetic datasets, automatically generated to cover tens of thousands of distinct entity types, to train zero-shot NER models. However, in this paper, we find that these synthetic datasets often contain entity types that are semantically highly similar to (or even the same as) those in standard evaluation benchmarks. Because of this overlap, we argue that reported F1 scores for zero-shot NER overestimate the true capabilities of these approaches. Further, we argue that current evaluation setups provide an incomplete picture of zero-shot abilities since they do not quantify the label shift (i.e., the similarity of labels) between training and evaluation datasets. To address these issues, we propose Familiarity, a novel metric that captures both the semantic similarity between entity types in training and evaluation, as well as their frequency in the training data, to provide an estimate of label shift. It allows researchers to contextualize reported zero-shot NER scores when using custom synthetic training datasets. Further, it enables researchers to generate evaluation setups of various transfer difficulties for fine-grained analysis of zero-shot NER.
- Abstract(参考訳): ゼロショット名前付きエンティティ認識(NER)は、特定のタイプの名前付きエンティティ(例えば、"Person"や"Medicine")をトレーニング例なしで検出するタスクである。
現在の研究では、ゼロショットNERモデルをトレーニングするために、数万の異なるエンティティタイプをカバーするために自動生成される大規模な合成データセットにますます依存している。
しかし,本論文では,これらの合成データセットは,標準的な評価ベンチマークと意味的によく似ている(あるいは同一)エンティティタイプを含むことが多い。
この重なり合いから、ゼロショットNERに対するF1スコアの報告は、これらのアプローチの真の性能を過大評価していると論じる。
さらに,評価データセットと評価データセットのラベルシフト(ラベルの類似性)を定量化しないため,現在の評価設定はゼロショット能力の不完全な画像を提供すると主張する。
これらの課題に対処するために、トレーニングにおけるエンティティタイプと評価におけるエンティティタイプ間のセマンティックな類似性と、トレーニングデータにおけるそれらの頻度の両方をキャプチャーし、ラベルシフトを推定するファミリアリティ(Familiarity)を提案する。
研究者は、カスタムの合成トレーニングデータセットを使用することで、報告されたゼロショットNERスコアをコンテキスト化することができる。
さらに、ゼロショットNERのきめ細かい解析のために、様々な転写困難の評価設定を生成することができる。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts [0.0]
本稿では,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
我々は、ゼロショットNERが35.44%、ワンショットNERが50.10%、10ショットNERが69.94%、100ショットNERが79.51%の平均スコアを達成した。
論文 参考訳(メタデータ) (2023-05-05T12:14:22Z) - Is Synthetic Dataset Reliable for Benchmarking Generalizable Person
Re-Identification? [1.1041211464412568]
最近の大規模合成データセット ClonedPerson は実世界のデータセットと統計的に同じGPReIDのベンチマークに確実に使用できることを示す。
本研究では、ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証する。
論文 参考訳(メタデータ) (2022-09-12T06:54:54Z) - Global Pointer: Novel Efficient Span-based Approach for Named Entity
Recognition [7.226094340165499]
名前付きエンティティ認識(NER)タスクは、事前に定義されたセマンティックタイプに属するテキストからエンティティを識別することを目的としている。
フラットエンティティのための最先端のソリューション NER は、基盤となるテキストの詳細なセマンティック情報を取得するのが一般的である。
提案するNERフレームワークであるGlobal Pointer(GP)は,乗法的アテンション機構によって相対位置を利用する。
論文 参考訳(メタデータ) (2022-08-05T09:19:46Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z) - Latent Embedding Feedback and Discriminative Features for Zero-Shot
Classification [139.44681304276]
ゼロショット学習は、トレーニング中にデータが利用できない、見えないカテゴリを分類することを目的としている。
Generative Adrial Networksは、クラス固有のセマンティック埋め込みを利用して、目に見えないクラス機能を合成する。
我々は,ゼロショット学習のすべての段階において,意味的一貫性を強制することを提案する。
論文 参考訳(メタデータ) (2020-03-17T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。