論文の概要: Noise in Relation Classification Dataset TACRED: Characterization and
Reduction
- arxiv url: http://arxiv.org/abs/2311.12298v1
- Date: Tue, 21 Nov 2023 02:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 02:19:09.159398
- Title: Noise in Relation Classification Dataset TACRED: Characterization and
Reduction
- Title(参考訳): 関係分類データセットTACREDにおけるノイズ:評価と低減
- Authors: Akshay Parekh, Ashish Anand, and Amit Awekar
- Abstract要約: 本研究では, 最先端モデル(SOTA)の予測と性能を分析し, データセットTACREDにおけるノイズの根本原因を同定する。
第2の目的として、最寄りの2つの戦略を探索し、除去と再注釈のための潜在的ノイズのある例を自動的に識別する。
- 参考スコア(独自算出の注目度): 1.693687279684153
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The overarching objective of this paper is two-fold. First, to explore
model-based approaches to characterize the primary cause of the noise. in the
RE dataset TACRED Second, to identify the potentially noisy instances. Towards
the first objective, we analyze predictions and performance of state-of-the-art
(SOTA) models to identify the root cause of noise in the dataset. Our analysis
of TACRED shows that the majority of the noise in the dataset originates from
the instances labeled as no-relation which are negative examples. For the
second objective, we explore two nearest-neighbor-based strategies to
automatically identify potentially noisy examples for elimination and
reannotation. Our first strategy, referred to as Intrinsic Strategy (IS), is
based on the assumption that positive examples are clean. Thus, we have used
false-negative predictions to identify noisy negative examples. Whereas, our
second approach, referred to as Extrinsic Strategy, is based on using a clean
subset of the dataset to identify potentially noisy negative examples. Finally,
we retrained the SOTA models on the eliminated and reannotated dataset. Our
empirical results based on two SOTA models trained on TACRED-E following the IS
show an average 4% F1-score improvement, whereas reannotation (TACRED-R) does
not improve the original results. However, following ES, SOTA models show the
average F1-score improvement of 3.8% and 4.4% when trained on respective
eliminated (TACRED-EN) and reannotated (TACRED-RN) datasets respectively. We
further extended the ES for cleaning positive examples as well, which resulted
in an average performance improvement of 5.8% and 5.6% for the eliminated
(TACRED-ENP) and reannotated (TACRED-RNP) datasets respectively.
- Abstract(参考訳): 本論文の主目的は2つである。
まず、ノイズの主な原因を特徴付けるためのモデルに基づくアプローチを検討する。
REデータセットTACRED Secondでは、潜在的にノイズの多いインスタンスを特定する。
第1の目的に向けて,最先端(sota)モデルの予測と性能を分析し,データセット内のノイズの根本原因を同定する。
TACREDの分析によると、データセットのノイズの大部分は、負の例であるno-relationとラベルされたインスタンスに由来する。
第2の目的として,2つの最寄りのneighborに基づく戦略について検討した。
Intrinsic Strategy(IS)と呼ばれる私たちの最初の戦略は、ポジティブな例がクリーンであるという仮定に基づいている。
そこで我々は,ノイズ負の例を特定するために偽陰性予測を用いた。
一方、Extrinsic Strategyと呼ばれる第2のアプローチは、データセットのクリーンなサブセットを使用して、潜在的にノイズの多い負の例を特定することに基づいている。
最後に、削除および再注釈されたデータセット上でSOTAモデルを再訓練した。
実験の結果は, TACRED-Eでトレーニングした2種類のSOTAモデルを用いて, 平均4%のF1スコア改善が得られたが, 再アノテーション (TACRED-R) では改善は得られなかった。
しかし、esに続くsomaモデルでは、各削除データセット(tacred-en)と再注釈データセット(tacred-rn)でトレーニングされた場合、平均f1-score改善率は3.8%と4.4%であった。
さらに, 陽性例のクリーニングのためにESを拡張し, その結果, 削除したデータセット(TACRED-ENP)と再アノテーション(TACRED-RNP)データセット(TACRED-RNP)の平均性能は5.8%, 5.6%向上した。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal [4.71154003227418]
本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音のあるラベルで学習する新しい手法 AGRAを提案する。
本手法は,サンプルの集合勾配と個々のサンプル勾配を比較して,対応するサンプルがモデルに役立つかどうかを動的に決定する。
いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示している。
論文 参考訳(メタデータ) (2023-06-07T15:10:01Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Guiding Pseudo-labels with Uncertainty Estimation for Test-Time
Adaptation [27.233704767025174]
Test-Time Adaptation (TTA) は、Unsupervised Domain Adaptation (UDA) の特定のケースであり、モデルがソースデータにアクセスせずにターゲットドメインに適合する。
本稿では,損失再重み付け戦略に基づくTTA設定のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-07T10:04:55Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Neighborhood Collective Estimation for Noisy Label Identification and
Correction [92.20697827784426]
ノイズラベルを用いた学習(LNL)は,ノイズラベルに対するモデルオーバーフィットの効果を軽減し,モデル性能と一般化を改善するための戦略を設計することを目的としている。
近年の進歩は、個々のサンプルのラベル分布を予測し、ノイズ検証とノイズラベル補正を行い、容易に確認バイアスを生じさせる。
提案手法では, 候補サンプルの予測信頼性を, 特徴空間近傍と対比することにより再推定する。
論文 参考訳(メタデータ) (2022-08-05T14:47:22Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - An Improved Baseline for Sentence-level Relation Extraction [17.50856935207308]
文レベルの関係抽出(RE)は文中の2つの実体間の関係を特定することを目的としている。
本稿では、エンティティ表現とNAインスタンス予測という、徹底的に研究されていないREモデルの2つの側面を再考する。
論文 参考訳(メタデータ) (2021-02-02T07:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。