論文の概要: Focusing on Possible Named Entities in Active Named Entity Label
Acquisition
- arxiv url: http://arxiv.org/abs/2111.03837v1
- Date: Sat, 6 Nov 2021 09:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 14:56:12.902276
- Title: Focusing on Possible Named Entities in Active Named Entity Label
Acquisition
- Title(参考訳): アクティブな名前付きエンティティラベル獲得における名前付きエンティティの重視
- Authors: Ali Osman Berk Sapci, Oznur Tastan, Reyyan Yeniterzi
- Abstract要約: 名前付きエンティティ認識(NER)は、構造化されていないテキストで名前付きエンティティの言及を特定し、それらをクラスに分類することを目的としている。
モデル性能を犠牲にすることなく、アノテーションコストを最小限に抑えるため、NERタスクにアクティブラーニング(AL)が使用されている。
本稿では,有意なトークンに対してより注意を払うAL文クエリ評価関数を提案し,これらの関数を文ベースおよびトークンベースのコスト評価戦略を用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) aims to identify mentions of named entities in
an unstructured text and classify them into the predefined named entity
classes. Even though deep learning-based pre-trained language models achieve
good predictive performances, many domain-specific NERtasks still require a
sufficient amount of labeled data. Active learning (AL), a general framework
for the label acquisition problem, has been used for the NER tasks to minimize
the annotation cost without sacrificing model performance. However, heavily
imbalanced class distribution of tokens introduces challenges in designing
effective AL querying methods for NER. We propose AL sentence query evaluation
functions which pay more attention to possible positive tokens, and evaluate
these proposed functions with both sentence-based and token-based cost
evaluation strategies. We also propose a better data-driven normalization
approach to penalize too long or too short sentences. Our experiments on three
datasets from different domains reveal that the proposed approaches reduce the
number of annotated tokens while achieving better or comparable prediction
performance with conventional methods.
- Abstract(参考訳): 名前付きエンティティ認識(ner)は、非構造化テキスト内の名前付きエンティティの参照を識別し、事前に定義された名前付きエンティティクラスに分類することを目的としている。
ディープラーニングに基づく事前学習言語モデルは優れた予測性能を達成するが、多くのドメイン固有のNERtaskは十分なラベル付きデータを必要とする。
ラベル獲得問題の一般的なフレームワークであるactive learning(al)は、モデルのパフォーマンスを犠牲にすることなくアノテーションコストを最小化するためにnerタスクに使用されている。
しかし,トークンの非バランスなクラス分布は,NERの効果的なALクエリ手法を設計する上での課題をもたらす。
本稿では,可能な正のトークンに注意を払うal文問合せ評価関数を提案し,これらの関数を文単位とトークン単位の両方のコスト評価戦略で評価する。
また,長文や短文をペナライズするためのデータ駆動正規化手法も提案する。
異なる領域からの3つのデータセットに対する実験により,提案手法はアノテーション付きトークンの数を減らし,従来の手法による予測性能を向上する。
関連論文リスト
- Evaluating Named Entity Recognition Using Few-Shot Prompting with Large Language Models [0.0]
Few-Shot PromptingやIn-context Learningは、モデルが最小限の例でエンティティを認識できるようにする。
NERタスクにおけるGPT-4のような最先端モデルの評価を行い、その数ショットのパフォーマンスと完全に教師付きベンチマークを比較した。
論文 参考訳(メタデータ) (2024-08-28T13:42:28Z) - A Unified Label-Aware Contrastive Learning Framework for Few-Shot Named Entity Recognition [6.468625143772815]
ラベル認識型トークンレベルのコントラスト学習フレームワークを提案する。
提案手法は,ラベルのセマンティクスを接尾辞のプロンプトとして活用することでコンテキストを豊かにする。
コンテキストネイティブとコンテキストラベルの対比学習目標を同時に最適化する。
論文 参考訳(メタデータ) (2024-04-26T06:19:21Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - PromptNER: A Prompting Method for Few-shot Named Entity Recognition via
k Nearest Neighbor Search [56.81939214465558]
本稿では,近距離探索による数発NERの新規プロンプト法であるPromptNERを提案する。
我々は、エンティティカテゴリ情報を含むプロンプトを使用してラベルのプロトタイプを構築する。
Few-NERDデータセットとCrossNERデータセットの広範な実験により,本モデルが最先端手法よりも優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-05-20T15:47:59Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Global Pointer: Novel Efficient Span-based Approach for Named Entity
Recognition [7.226094340165499]
名前付きエンティティ認識(NER)タスクは、事前に定義されたセマンティックタイプに属するテキストからエンティティを識別することを目的としている。
フラットエンティティのための最先端のソリューション NER は、基盤となるテキストの詳細なセマンティック情報を取得するのが一般的である。
提案するNERフレームワークであるGlobal Pointer(GP)は,乗法的アテンション機構によって相対位置を利用する。
論文 参考訳(メタデータ) (2022-08-05T09:19:46Z) - Active Pointly-Supervised Instance Segmentation [106.38955769817747]
アクティブポイント制御型インスタンスセグメンテーション(APIS)という,経済的なアクティブな学習環境を提案する。
APISはボックスレベルのアノテーションから始まり、ボックス内のポイントを反復的にサンプリングし、オブジェクトに落ちているかどうかを問う。
これらの戦略で開発されたモデルは、挑戦的なMS-COCOデータセットに対して一貫したパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2022-07-23T11:25:24Z) - Named Entity Recognition without Labelled Data: A Weak Supervision
Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。
このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。
シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文 参考訳(メタデータ) (2020-04-30T12:29:55Z) - Active Learning for Coreference Resolution using Discrete Annotation [76.36423696634584]
我々は、コア参照解決におけるアクティブラーニングのためのペアワイズアノテーションを改善した。
提案された参照ペアがコアフェレントでないと判断された場合、アノテータに参照アンテセントを識別するよう依頼する。
既存のベンチマークコアベンチマークデータセットを用いた実験では、この追加質問からの信号が人間のアノテーション時間当たりの大幅なパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-04-28T17:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。