論文の概要: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach
- arxiv url: http://arxiv.org/abs/2402.14948v3
- Date: Mon, 16 Dec 2024 22:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:10.329856
- Title: Re-Examine Distantly Supervised NER: A New Benchmark and a Simple Approach
- Title(参考訳): Re-Examine Distantly Supervised NER:新しいベンチマークと簡単なアプローチ
- Authors: Yuepei Li, Kang Zhou, Qiao Qiao, Qing Wang, Qi Li,
- Abstract要約: 実生活DS-NERデータセットであるQTLを導入し、ドメイン辞書を用いてトレーニングデータをアノテートし、テストデータをドメインの専門家がアノテートする。
既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。
そこで我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度まで注文する,トークンレベルの正正解学習(CuPUL)を提案する。
- 参考スコア(独自算出の注目度): 14.801411392475439
- License:
- Abstract: Distantly-Supervised Named Entity Recognition (DS-NER) uses knowledge bases or dictionaries for annotations, reducing manual efforts but rely on large human labeled validation set. In this paper, we introduce a real-life DS-NER dataset, QTL, where the training data is annotated using domain dictionaries and the test data is annotated by domain experts. This dataset has a small validation set, reflecting real-life scenarios. Existing DS-NER approaches fail when applied to QTL, which motivate us to re-examine existing DS-NER approaches. We found that many of them rely on large validation sets and some used test set for tuning inappropriately. To solve this issue, we proposed a new approach, token-level Curriculum-based Positive-Unlabeled Learning (CuPUL), which uses curriculum learning to order training samples from easy to hard. This method stabilizes training, making it robust and effective on small validation sets. CuPUL also addresses false negative issues using the Positive-Unlabeled learning paradigm, demonstrating improved performance in real-life applications.
- Abstract(参考訳): Distantly-Supervised Named Entity Recognition (DS-NER)は、アノテーションのための知識ベースまたは辞書を使用し、手作業を減らすが、大きな人間のラベル付き検証セットに依存している。
本稿では,実生活におけるDS-NERデータセットであるQTLを紹介し,ドメイン辞書を用いてトレーニングデータをアノテートし,テストデータをドメインの専門家がアノテートする。
このデータセットには、実際のシナリオを反映した、小さな検証セットがある。
既存のDS-NERアプローチはQTLに適用されると失敗し、既存のDS-NERアプローチを再検討する動機となる。
それらの多くは大きな検証セットに依存しており、一部のテストセットは不適切なチューニングに使用していました。
この問題を解決するために,我々は,カリキュラム学習を用いて学習サンプルを簡単から難易度に注文する,トークンレベルの正の学習(CuPUL)を提案する。
この方法はトレーニングを安定させ、小さな検証セットで堅牢で効果的にする。
CuPULはまた、Positive-Unlabeled学習パラダイムを使って偽陰性問題に対処し、現実のアプリケーションの性能改善を実証している。
関連論文リスト
- LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Meta Objective Guided Disambiguation for Partial Label Learning [44.05801303440139]
メタ客観的ガイド型曖昧化(MoGD)を用いたラベル学習のための新しい枠組みを提案する。
MoGDは、小さな検証セットでメタ目標を解くことで、候補ラベルから基底トラスラベルを復元することを目的としている。
提案手法は,通常のSGDを用いた様々なディープネットワークを用いて容易に実装できる。
論文 参考訳(メタデータ) (2022-08-26T06:48:01Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。