論文の概要: Rethinking Negative Sampling for Unlabeled Entity Problem in Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2108.11607v1
- Date: Thu, 26 Aug 2021 07:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 14:07:54.630336
- Title: Rethinking Negative Sampling for Unlabeled Entity Problem in Named
Entity Recognition
- Title(参考訳): 名前付きエンティティ認識におけるラベル付きエンティティ問題に対する否定サンプリングの再考
- Authors: Yangming Li, Lemao Liu, Shuming Shi
- Abstract要約: ラベルのないエンティティは、名前付きエンティティ認識モデルのパフォーマンスを著しく劣化させる。
我々は、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。
負サンプリングのための重み付き適応サンプリング分布を提案する。
- 参考スコア(独自算出の注目度): 47.273602658066196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many situations (e.g., distant supervision), unlabeled entity problem
seriously degrades the performances of named entity recognition (NER) models.
Recently, this issue has been well addressed by a notable approach based on
negative sampling. In this work, we perform two studies along this direction.
Firstly, we analyze why negative sampling succeeds both theoretically and
empirically. Based on the observation that named entities are highly sparse in
datasets, we show a theoretical guarantee that, for a long sentence, the
probability of containing no unlabeled entities in sampled negatives is high.
Missampling tests on synthetic datasets have verified our guarantee in
practice. Secondly, to mine hard negatives and further reduce missampling
rates, we propose a weighted and adaptive sampling distribution for negative
sampling. Experiments on synthetic datasets and well-annotated datasets show
that our method significantly improves negative sampling in robustness and
effectiveness. We also have achieved new state-of-the-art results on real-world
datasets.
- Abstract(参考訳): 多くの状況(例えば遠隔監視)において、ラベルなしのエンティティ問題は名前付きエンティティ認識(NER)モデルの性能を著しく低下させる。
近年, 負のサンプリングに基づく顕著なアプローチによってこの問題に対処されている。
本研究では,この方向で2つの研究を行う。
まず、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。
名前付きエンティティはデータセットにおいて非常に疎いという観測に基づいて、長い文において、サンプル負にラベルのないエンティティを含まない確率が高いという理論的保証を示す。
合成データセットのミスサンプリングテストは、実際に保証を検証しました。
第二に、ハードネガティブをマイニングし、さらにミスアンプ率を下げるために、負サンプリングのための重み付き適応サンプリング分布を提案する。
合成データセットと注釈付きデータセットの実験により,ロバスト性および有効性において負のサンプリングを著しく改善することが示された。
私たちはまた、現実世界のデータセットで新たな最先端の結果を得ました。
関連論文リスト
- Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Better Sampling of Negatives for Distantly Supervised Named Entity
Recognition [39.264878763160766]
本稿では, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
提案手法は,4つの遠隔教師付きNERデータセットに対して一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2023-05-22T15:35:39Z) - Bayesian Self-Supervised Contrastive Learning [16.903874675729952]
本稿では,BCL損失と呼ばれる新たな自己監督型コントラスト損失を提案する。
鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。
実験はBCL損失の有効性と優越性を検証した。
論文 参考訳(メタデータ) (2023-01-27T12:13:06Z) - SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval [126.22182758461244]
評価結果によると, 正の値にランク付けされた負の値は, 一般的にはより情報的であり, 偽陰の可能性が低いことがわかった。
そこで本研究では,よりあいまいな負のサンプリングに新しいサンプリング確率分布を組み込んだ,単純な曖昧な負のサンプリング手法であるSimANSを提案する。
論文 参考訳(メタデータ) (2022-10-21T07:18:05Z) - Entity Aware Negative Sampling with Auxiliary Loss of False Negative
Prediction for Knowledge Graph Embedding [0.0]
我々はEANS(Entity Aware Negative Smpling)と呼ばれる新しい手法を提案する。
EANSは、整列した実体指数空間にガウス分布を採用することにより、正に類似した負の実体をサンプリングすることができる。
提案手法は, 正のサンプルサイズによらず高品質な負のサンプルを生成し, 偽の負のサンプルの影響を効果的に軽減することができる。
論文 参考訳(メタデータ) (2022-10-12T14:27:51Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z) - MixPUL: Consistency-based Augmentation for Positive and Unlabeled
Learning [8.7382177147041]
本稿では, 整合性正規化に基づく簡易かつ効果的なデータ拡張手法である coinedalgo を提案する。
アルゴインコーポレートは、拡張データを生成するために、教師付きおよび教師なしの一貫性トレーニングを行う。
我々は,CIFAR-10データセットの分類誤差を16.49から13.09まで,それぞれ異なる正のデータ量で平均的に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-20T15:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。