論文の概要: Class-Adaptive Self-Training for Relation Extraction with Incompletely
Annotated Training Data
- arxiv url: http://arxiv.org/abs/2306.09697v1
- Date: Fri, 16 Jun 2023 09:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 14:28:56.671746
- Title: Class-Adaptive Self-Training for Relation Extraction with Incompletely
Annotated Training Data
- Title(参考訳): 不完全アノテートトレーニングデータを用いた関係抽出のためのクラス適応型自己学習
- Authors: Qingyu Tan, Lu Xu, Lidong Bing, Hwee Tou Ng
- Abstract要約: 関係抽出(RE)は、文や文書から関係を抽出することを目的としている。
最近の研究により、多くのREデータセットが不完全注釈付きであることが示されている。
これは、有効関係が「no_relation」として誤って注釈付けされる偽陰問題として知られている。
- 参考スコア(独自算出の注目度): 43.46328487543664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation extraction (RE) aims to extract relations from sentences and
documents. Existing relation extraction models typically rely on supervised
machine learning. However, recent studies showed that many RE datasets are
incompletely annotated. This is known as the false negative problem in which
valid relations are falsely annotated as 'no_relation'. Models trained with
such data inevitably make similar mistakes during the inference stage.
Self-training has been proven effective in alleviating the false negative
problem. However, traditional self-training is vulnerable to confirmation bias
and exhibits poor performance in minority classes. To overcome this limitation,
we proposed a novel class-adaptive re-sampling self-training framework.
Specifically, we re-sampled the pseudo-labels for each class by precision and
recall scores. Our re-sampling strategy favored the pseudo-labels of classes
with high precision and low recall, which improved the overall recall without
significantly compromising precision. We conducted experiments on
document-level and biomedical relation extraction datasets, and the results
showed that our proposed self-training framework consistently outperforms
existing competitive methods on the Re-DocRED and ChemDisgene datasets when the
training data are incompletely annotated. Our code is released at
https://github.com/DAMO-NLP-SG/CAST.
- Abstract(参考訳): 関係抽出(RE)は、文や文書から関係を抽出することを目的としている。
既存の関係抽出モデルは一般的に教師付き機械学習に依存している。
しかし、最近の研究では多くのREデータセットが不完全注釈付きであることが示されている。
これは、正当な関係を「no_relation」と誤記する偽陰性問題として知られている。
このようなデータでトレーニングされたモデルは、推論段階で必然的に同様の間違いを犯す。
自己学習は偽陰性問題の緩和に有効であることが証明されている。
しかし、従来の自己学習は確証バイアスに弱いため、少数派では性能が劣っている。
この制限を克服するため,我々は新しいクラス適応型自己学習フレームワークを提案する。
具体的には,各クラスの擬似ラベルを精度とリコールスコアで再サンプリングした。
再サンプリング戦略は,高精度・低リコールクラスの擬似ラベルを好んで実施し,精度を損なうことなく全体のリコールを改善した。
本研究では, 文書レベルおよびバイオメディカル関係抽出データセットの実験を行い, トレーニングデータが不完全注釈付けされた場合, 提案した自己学習フレームワークは, Re-DocRED および ChemDisgene データセット上の既存の競合手法より一貫して優れていることを示した。
私たちのコードはhttps://github.com/DAMO-NLP-SG/CASTで公開されています。
関連論文リスト
- Trained Models Tell Us How to Make Them Robust to Spurious Correlation without Group Annotation [3.894771553698554]
経験的リスク最小化(ERM)モデルは、ターゲットと高い刺激的な相関を持つ属性に依存する傾向がある。
これにより、これらの属性を欠いた未表現(または'マイナー')グループのパフォーマンスを低下させることができる。
本稿では,環境に基づく検証と損失に基づくサンプリング(EVaLS)を提案する。
論文 参考訳(メタデータ) (2024-10-07T08:17:44Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Annotation-Free Group Robustness via Loss-Based Resampling [3.355491272942994]
経験的リスク最小化による画像分類のためのニューラルネットワークのトレーニングは、予測のための因果的属性ではなく、突発的な属性に依存することに脆弱である。
トレーニングデータの小さな分割に対してERM事前学習モデルを評価することにより、データのグループ化を推測する。
水鳥とCelebAデータセットの様々なバージョンにおけるLFRの評価を行った。
論文 参考訳(メタデータ) (2023-12-08T08:22:02Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Does Recommend-Revise Produce Reliable Annotations? An Analysis on
Missing Instances in DocRED [60.39125850987604]
テキスト修正方式は, 偽陰性サンプルと, 人気エンティティや関係性に対する明らかな偏見をもたらすことを示す。
より信頼性の高いドキュメントREモデルのテストセットとして機能するように、relabeledデータセットがリリースされている。
論文 参考訳(メタデータ) (2022-04-17T11:29:01Z) - Robust Neural Network Classification via Double Regularization [2.41710192205034]
本稿では、分類モデルの複雑さに対するペナルティと、学習観察の最適な再重み付けを組み合わせた、ニューラルネットワークトレーニング損失の新しい二重正則化を提案する。
我々は, (i) MNIST と (ii) CIFAR-10 のニューラルネット分類のための DRFit について, 両者の相違点について実証した。
論文 参考訳(メタデータ) (2021-12-15T13:19:20Z) - Knowing False Negatives: An Adversarial Training Method for Distantly
Supervised Relation Extraction [8.764365529317923]
疑似負関係抽出のための2段階のアプローチを提案する。
まず、ディープニューラルネットワークのメモリ機構を利用して、可能なFNサンプルを見つける。
そして、これらのラベルのないデータとトレーニングデータとを、擬似ラベルを割り当てる対向訓練により、統一された特徴空間に整列する。
論文 参考訳(メタデータ) (2021-09-05T15:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。