論文の概要: Enhancing Low-resource Fine-grained Named Entity Recognition by
Leveraging Coarse-grained Datasets
- arxiv url: http://arxiv.org/abs/2310.11715v1
- Date: Wed, 18 Oct 2023 05:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:48:52.933261
- Title: Enhancing Low-resource Fine-grained Named Entity Recognition by
Leveraging Coarse-grained Datasets
- Title(参考訳): 粗粒度データセットの活用による低リソースきめ細粒度エンティティ認識の実現
- Authors: Su Ah Lee, Seokjin Oh and Woohwan Jung
- Abstract要約: K$-shotの学習テクニックを適用することもできるが、アノテーションの数が数十を超えると、そのパフォーマンスは飽和する傾向にある。
階層構造を的確に活用するために,F2Cマッピング行列を用いた細粒度NERモデルを提案する。
本手法は,少量の微粒なアノテーションを扱う場合,$K$-shot学習と教師あり学習の両方に優れる。
- 参考スコア(独自算出の注目度): 1.5500145658862499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) frequently suffers from the problem of
insufficient labeled data, particularly in fine-grained NER scenarios. Although
$K$-shot learning techniques can be applied, their performance tends to
saturate when the number of annotations exceeds several tens of labels. To
overcome this problem, we utilize existing coarse-grained datasets that offer a
large number of annotations. A straightforward approach to address this problem
is pre-finetuning, which employs coarse-grained data for representation
learning. However, it cannot directly utilize the relationships between
fine-grained and coarse-grained entities, although a fine-grained entity type
is likely to be a subcategory of a coarse-grained entity type. We propose a
fine-grained NER model with a Fine-to-Coarse(F2C) mapping matrix to leverage
the hierarchical structure explicitly. In addition, we present an inconsistency
filtering method to eliminate coarse-grained entities that are inconsistent
with fine-grained entity types to avoid performance degradation. Our
experimental results show that our method outperforms both $K$-shot learning
and supervised learning methods when dealing with a small number of
fine-grained annotations.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、特に粒度の細かいNERシナリオにおいて、ラベル付きデータの不十分な問題にしばしば悩まされる。
k$-shotの学習テクニックは適用可能だが、アノテーション数が数十のラベルを超えると、そのパフォーマンスは飽和する傾向がある。
この問題を解決するために、多数のアノテーションを提供する既存の粗粒度データセットを利用する。
この問題を解決するための直接的なアプローチは、表現学習に粗い粒度データを用いる事前調整である。
しかし、粗粒状エンティティと粗粒状エンティティの関係を直接利用することはできないが、粗粒状エンティティタイプは粗粒状エンティティタイプのサブカテゴリである可能性が高い。
階層構造を明示的に活用するためにF2Cマッピング行列を用いた粒度NERモデルを提案する。
さらに,性能劣化を回避するために,粒度が粗いエンティティと不一致なエンティティを除去する不整合フィルタリング手法を提案する。
提案手法は,少量の微粒なアノテーションを扱う場合,K$-shot学習法と教師あり学習法の両方より優れていることを示す。
関連論文リスト
- SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Continual Named Entity Recognition without Catastrophic Forgetting [37.316700599440935]
我々は,古いエンティティタイプの知識の保持と新しいもの獲得のトレードオフを巧みに回避する,プールド・フィーチャー蒸留損失を導入する。
非エンタリティ型のための信頼に基づく疑似ラベルを作成する。
バイアス型分布の問題に対処するために,適応的再重み付け型バランス学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:45:30Z) - PIE: a Parameter and Inference Efficient Solution for Large Scale
Knowledge Graph Embedding Reasoning [24.29409958504209]
PIE, textbfparameter および textbfinference textbfefficient ソリューションを提案する。
テンソル分解法から着想を得た結果, 要素埋め込み行列を低階行列に分解することで, パラメータの半数以上を削減できることがわかった。
モデル推論を高速化するために,よりきめ細かなエンティティタイピングのように見える自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2022-04-29T09:06:56Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Locate and Label: A Two-stage Identifier for Nested Named Entity
Recognition [9.809157050048375]
名前付きエンティティ認識のための2段階エンティティ識別子を提案する。
まず、シードスパンのフィルタリングと境界回帰によってスパン提案を生成し、エンティティの特定を行い、それに対応するカテゴリで境界調整スパン提案をラベル付けする。
本手法は,訓練中のエンティティの境界情報と部分マッチングスパンを効果的に活用する。
論文 参考訳(メタデータ) (2021-05-14T12:52:34Z) - Empirical Analysis of Unlabeled Entity Problem in Named Entity
Recognition [47.273602658066196]
多くのシナリオにおいて、名前付きエンティティ認識モデルはラベル付きエンティティ問題に苦しむ。
ラベルのないエンティティによってもたらされる誤解をほとんど排除できる一般的なアプローチを提案する。
私たちのモデルは、ラベルのないエンティティ問題に堅牢であり、以前のベースラインを超えます。
論文 参考訳(メタデータ) (2020-12-10T02:53:59Z) - Overcoming the curse of dimensionality with Laplacian regularization in
semi-supervised learning [80.20302993614594]
ラプラシア正規化の欠点を克服するための統計的解析を提供する。
望ましい振る舞いを示すスペクトルフィルタリング法を多数発表する。
我々は,本手法を大量のデータで利用できるようにするために,現実的な計算ガイドラインを提供する。
論文 参考訳(メタデータ) (2020-09-09T14:28:54Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。