論文の概要: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach
- arxiv url: http://arxiv.org/abs/2402.14948v3
- Date: Mon, 16 Dec 2024 22:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.051633
- Title: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach
- Title(参考訳): Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ
- Authors: Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang, Qi Li,
- Abstract要約: 実生活DS-NERデータセットであるQTLを導入し、ドメイン辞書を用いてトレーニングデータをアノテートし、テストデータをドメインの専門家がアノテートする。
既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。
そこで我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度まで注文する,トークンレベルの正正解学習(CuPUL)を提案する。
- 参考スコア(独自算出の注目度): 14.801411392475439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distantly-Supervised Named Entity Recognition (DS-NER) uses knowledge bases or dictionaries for annotations, reducing manual efforts but rely on large human labeled validation set. In this paper, we introduce a real-life DS-NER dataset, QTL, where the training data is annotated using domain dictionaries and the test data is annotated by domain experts. This dataset has a small validation set, reflecting real-life scenarios. Existing DS-NER approaches fail when applied to QTL, which motivate us to re-examine existing DS-NER approaches. We found that many of them rely on large validation sets and some used test set for tuning inappropriately. To solve this issue, we proposed a new approach, token-level Curriculum-based Positive-Unlabeled Learning (CuPUL), which uses curriculum learning to order training samples from easy to hard. This method stabilizes training, making it robust and effective on small validation sets. CuPUL also addresses false negative issues using the Positive-Unlabeled learning paradigm, demonstrating improved performance in real-life applications.
- Abstract(参考訳): Distantly-Supervised Named Entity Recognition (DS-NER)は、アノテーションのための知識ベースまたは辞書を使用し、手作業を減らすが、大きな人間のラベル付き検証セットに依存している。
本稿では,実生活におけるDS-NERデータセットであるQTLを紹介し,ドメイン辞書を用いてトレーニングデータをアノテートし,テストデータをドメインの専門家がアノテートする。
このデータセットには、実際のシナリオを反映した、小さな検証セットがある。
既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。
それらの多くは大きな検証セットに依存しており、一部のテストセットは不適切なチューニングに使用していました。
この問題を解決するために,我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度に注文する,トークンレベルの正の学習(CuPUL)を提案する。
この方法はトレーニングを安定させ、小さな検証セットで堅牢で効果的にする。
CuPULはまた、Positive-Unlabeled学習パラダイムを使って偽陰性問題に対処し、現実のアプリケーションの性能改善を実証している。
関連論文リスト
- DynClean: Training Dynamics-based Label Cleaning for Distantly-Supervised Named Entity Recognition [49.54155332262579]
本稿では,トレーニングの進行に伴うモデルの挙動を生かした,トレーニングダイナミクスに基づくラベルクリーニング手法を提案する。
また,遠隔ラベルの誤りを見つけるための自動しきい値推定手法も導入する。
提案手法は,4つのデータセットにまたがる高度なDS-NER手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-06T20:54:42Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Revisiting Class Imbalance for End-to-end Semi-Supervised Object
Detection [1.6249267147413524]
半教師付きオブジェクト検出(SSOD)は、擬似ラベルに基づくエンドツーエンド手法の開発において大きな進歩を遂げている。
多くの手法は、擬似ラベルジェネレータの有効性を妨げるクラス不均衡のため、課題に直面している。
本稿では,低品質な擬似ラベルの根本原因と,ラベル生成品質を改善するための新しい学習メカニズムについて検討する。
論文 参考訳(メタデータ) (2023-06-04T06:01:53Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Label Noise-Robust Learning using a Confidence-Based Sieving Strategy [15.997774467236352]
ラベルノイズを伴うタスクの学習では、オーバーフィッティングに対するモデルの堅牢性を改善することが重要な課題である。
サンプルをノイズのあるラベルで識別し、モデルを学習するのを防ぐことは、この課題に対処するための有望なアプローチである。
本研究では, 信頼度誤差と呼ばれる新しい判別基準と, クリーンサンプルとノイズサンプルを効果的に識別するためのCONFESと呼ばれるシービング戦略を提案する。
論文 参考訳(メタデータ) (2022-10-11T10:47:28Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Meta Objective Guided Disambiguation for Partial Label Learning [44.05801303440139]
メタ客観的ガイド型曖昧化(MoGD)を用いたラベル学習のための新しい枠組みを提案する。
MoGDは、小さな検証セットでメタ目標を解くことで、候補ラベルから基底トラスラベルを復元することを目的としている。
提案手法は,通常のSGDを用いた様々なディープネットワークを用いて容易に実装できる。
論文 参考訳(メタデータ) (2022-08-26T06:48:01Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Uncertainty-aware Pseudo-label Selection for Positive-Unlabeled Learning [10.014356492742074]
本稿では,正の未ラベル学習環境における不均衡データセットとモデル校正の問題に取り組むことを提案する。
マイノリティクラスからのシグナルを増強することにより、擬似ラベル付けはラベル付きデータセットをラベル付きデータセットから新しいサンプルで拡張する。
PUUPLは一連の実験において、高度に不均衡な設定で大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2022-01-31T12:55:47Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Boosting Semi-Supervised Face Recognition with Noise Robustness [54.342992887966616]
本稿では,自動ラベルによるラベル雑音に対して頑健な半教師付き顔認識に対する効果的な解法を提案する。
そこで我々は,gnが強化するロバストな学習能力に基づく,ノイズロバスト学習ラベリング(nroll)という,半教師付き顔認識ソリューションを開発した。
論文 参考訳(メタデータ) (2021-05-10T14:43:11Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。