論文の概要: Few Clean Instances Help Denoising Distant Supervision
- arxiv url: http://arxiv.org/abs/2209.06596v1
- Date: Wed, 14 Sep 2022 12:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:14:06.908604
- Title: Few Clean Instances Help Denoising Distant Supervision
- Title(参考訳): 遠隔地を監視できるクリーンなインスタンスはほとんどない
- Authors: Yufang Liu, Ziyin Huang, Yijun Wang, Changzhi Sun, Man Lan, Yuanbin
Wu, Xiaofeng Mou and Ding Wang
- Abstract要約: 遠隔教師付きモデルの品質向上には,小さなクリーンデータセットが有効かどうかを検討する。
モデルのより説得力のある評価に加えて、小さなクリーンなデータセットは、より堅牢なデノゲーションモデルの構築にも役立ちます。
- 参考スコア(独自算出の注目度): 28.336399223985175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing distantly supervised relation extractors usually rely on noisy data
for both model training and evaluation, which may lead to
garbage-in-garbage-out systems. To alleviate the problem, we study whether a
small clean dataset could help improve the quality of distantly supervised
models. We show that besides getting a more convincing evaluation of models, a
small clean dataset also helps us to build more robust denoising models.
Specifically, we propose a new criterion for clean instance selection based on
influence functions. It collects sample-level evidence for recognizing good
instances (which is more informative than loss-level evidence). We also propose
a teacher-student mechanism for controlling purity of intermediate results when
bootstrapping the clean set. The whole approach is model-agnostic and
demonstrates strong performances on both denoising real (NYT) and synthetic
noisy datasets.
- Abstract(参考訳): 既存の遠隔教師付き関係抽出器は、通常、モデルトレーニングと評価の両方にノイズデータに依存しているため、ガベージ・イン・ガベージ・アウトシステムにつながる可能性がある。
この問題を軽減するために,小型のクリーンデータセットが遠隔教師付きモデルの品質向上に役立つか検討した。
モデルのより説得力のある評価に加えて、小さなクリーンなデータセットは、より堅牢なデノーミングモデルの構築にも役立ちます。
具体的には,影響関数に基づくクリーンインスタンス選択の新しい基準を提案する。
良い事例を認識するためのサンプルレベルの証拠を収集する(損失レベルの証拠よりも有益である)。
また,クリーンセットのブートストラップ時に中間結果の純度を制御するための教師学生機構を提案する。
アプローチ全体はモデルに依存しず、実(NYT)と合成ノイズデータセットの両方で強力なパフォーマンスを示す。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。
我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-24T20:28:59Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Improving Distantly Supervised Relation Extraction with Self-Ensemble
Noise Filtering [17.45521023572853]
本研究では,学習過程におけるノイズを除去する自己アンサンブルフィルタリング機構を提案する。
複数の最先端関係抽出モデルを用いた実験により,提案したフィルタリング機構はモデルの堅牢性を改善し,F1スコアを増加させることを示す。
論文 参考訳(メタデータ) (2021-08-22T11:23:36Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Deep k-NN for Noisy Labels [55.97221021252733]
予備モデルのロジット層上での単純な$k$-nearest近傍フィルタリング手法により、ラベルの誤りを除去し、最近提案された多くの手法よりも正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-04-26T05:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。