論文の概要: Revisiting the Negative Data of Distantly Supervised Relation Extraction
- arxiv url: http://arxiv.org/abs/2105.10158v1
- Date: Fri, 21 May 2021 06:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:36:00.235276
- Title: Revisiting the Negative Data of Distantly Supervised Relation Extraction
- Title(参考訳): 遠隔教師付き関係抽出における負データの再検討
- Authors: Chenhao Xie, Jiaqing Liang, Jingping Liu, Chengsong Huang, Wenhao
Huang, Yanghua Xiao
- Abstract要約: 遠隔監視は、関係抽出のための多くのトレーニングサンプルを自動的に生成する。
また、ノイズラベルと不均衡なトレーニングデータという2つの大きな問題も発生している。
そこで我々はtextscReRe と呼ばれるパイプライン手法を提案し,文レベルの関係検出を行い,対象/対象抽出を行う。
- 参考スコア(独自算出の注目度): 17.00557139562208
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Distantly supervision automatically generates plenty of training samples for
relation extraction. However, it also incurs two major problems: noisy labels
and imbalanced training data. Previous works focus more on reducing wrongly
labeled relations (false positives) while few explore the missing relations
that are caused by incompleteness of knowledge base (false negatives).
Furthermore, the quantity of negative labels overwhelmingly surpasses the
positive ones in previous problem formulations. In this paper, we first provide
a thorough analysis of the above challenges caused by negative data. Next, we
formulate the problem of relation extraction into as a positive unlabeled
learning task to alleviate false negative problem. Thirdly, we propose a
pipeline approach, dubbed \textsc{ReRe}, that performs sentence-level relation
detection then subject/object extraction to achieve sample-efficient training.
Experimental results show that the proposed method consistently outperforms
existing approaches and remains excellent performance even learned with a large
quantity of false positive samples.
- Abstract(参考訳): 遠隔監視は、関係抽出のための多くのトレーニングサンプルを自動的に生成する。
しかし、ノイズラベルと不均衡なトレーニングデータという2つの大きな問題も生じている。
以前の研究では、誤ったラベル付き関係(偽陽性)を減らすことに注力しているが、知識ベース(偽陰性)の不完全性によって引き起こされる欠落関係を探究する者は少ない。
さらに、負ラベルの量は、以前の問題定式化の正ラベルを圧倒的に上回る。
本稿では、まず、負のデータによる上記の課題を徹底的に分析する。
次に,関係抽出の問題を正の無ラベル学習タスクとして定式化し,偽陰性問題を緩和する。
第3に, 文レベルの関係検出を行い, 対象/対象抽出を行い, サンプル効率の訓練を行うパイプライン手法を提案する。
実験の結果,提案手法は既存の手法より一貫して優れており,多くの偽陽性サンプルを学習しても優れた性能を保っていることがわかった。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Better Sampling of Negatives for Distantly Supervised Named Entity
Recognition [39.264878763160766]
本稿では, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
提案手法は,4つの遠隔教師付きNERデータセットに対して一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2023-05-22T15:35:39Z) - Rethinking Negative Sampling for Unlabeled Entity Problem in Named
Entity Recognition [47.273602658066196]
ラベルのないエンティティは、名前付きエンティティ認識モデルのパフォーマンスを著しく劣化させる。
我々は、なぜ負のサンプリングが理論的にも経験的にも成功するのかを分析する。
負サンプリングのための重み付き適応サンプリング分布を提案する。
論文 参考訳(メタデータ) (2021-08-26T07:02:57Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - NPCFace: Negative-Positive Collaborative Training for Large-scale Face
Recognition [78.21084529159577]
我々は、トレーニングを改善するために、ハードサンプルのより良い利用方法を研究する。
強正と強負の相関は見過ごされ、正と負のロジットのマージンの関係も見過ごされる。
我々はNPCFaceと呼ばれる新規な負の正の協調的損失を提案し、これは負のハードケースと正のハードケースの両方のトレーニングを強調している。
論文 参考訳(メタデータ) (2020-07-20T14:52:29Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z) - MixPUL: Consistency-based Augmentation for Positive and Unlabeled
Learning [8.7382177147041]
本稿では, 整合性正規化に基づく簡易かつ効果的なデータ拡張手法である coinedalgo を提案する。
アルゴインコーポレートは、拡張データを生成するために、教師付きおよび教師なしの一貫性トレーニングを行う。
我々は,CIFAR-10データセットの分類誤差を16.49から13.09まで,それぞれ異なる正のデータ量で平均的に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-20T15:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。