論文の概要: Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition
- arxiv url: http://arxiv.org/abs/2205.14228v1
- Date: Fri, 27 May 2022 20:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 03:50:54.678844
- Title: Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition
- Title(参考訳): 弱教師付き名前付きエンティティ認識のためのスパース条件付き隠れマルコフモデル
- Authors: Yinghao Li, Le Song, Chao Zhang
- Abstract要約: 雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
- 参考スコア(独自算出の注目度): 68.68300358332156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised named entity recognition methods train label models to
aggregate the token annotations of multiple noisy labeling functions (LFs)
without seeing any manually annotated labels. To work well, the label model
needs to contextually identify and emphasize well-performed LFs while
down-weighting the under-performers. However, evaluating the LFs is challenging
due to the lack of ground truths. To address this issue, we propose the sparse
conditional hidden Markov model (Sparse-CHMM). Instead of predicting the entire
emission matrix as other HMM-based methods, Sparse-CHMM focuses on estimating
its diagonal elements, which are considered as the reliability scores of the
LFs. The sparse scores are then expanded to the full-fledged emission matrix
with pre-defined expansion functions. We also augment the emission with
weighted XOR scores, which track the probabilities of an LF observing incorrect
entities. Sparse-CHMM is optimized through unsupervised learning with a
three-stage training pipeline that reduces the training difficulty and prevents
the model from falling into local optima. Compared with the baselines in the
Wrench benchmark, Sparse-CHMM achieves a 3.01 average F1 score improvement on
five comprehensive datasets. Experiments show that each component of
Sparse-CHMM is effective, and the estimated LF reliabilities strongly correlate
with true LF F1 scores.
- Abstract(参考訳): 名前付きエンティティ認識メソッドは、手動でアノテートされたラベルを見ることなく、ラベルモデルをトレーニングし、複数のノイズラベル関数(LF)のトークンアノテーションを集約する。
うまく機能させるためには、ラベルモデルは、性能の低いLFを低くしながら、文脈的に識別し、強調する必要がある。
しかし、基礎的な真実が欠如しているため、LFを評価することは困難である。
本稿では,スパース条件付き隠れマルコフモデル (Sparse-CHMM) を提案する。
他のHMMベースの手法として放出行列全体を予測するのではなく、Sparse-CHMMはLFの信頼性スコアである対角要素の推定に重点を置いている。
スパーススコアは、予め定義された拡張関数を持つフルフレッジエミッション行列に拡張される。
また、重み付けされたXORスコアを用いて、不正確な物質を観測するLFの確率を追跡する。
Sparse-CHMMは教師なし学習によって最適化され、3段階のトレーニングパイプラインでトレーニングの困難を減らし、モデルが局所的な最適状態に陥るのを防ぐ。
Wrenchベンチマークのベースラインと比較すると、Sparse-CHMMは5つの包括的なデータセットで平均F1スコアの改善を3.01達成している。
実験の結果, Sparse-CHMMの各成分は有効であり, 推定LF信頼度は真のLF F1スコアと強く相関していることがわかった。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision [5.566060402907773]
弱監督(WS)は手動データラベリングの代案として費用対効果がある。
教師なしラベル付け関数修正のための新しいアルゴリズムULFを導入する。
ULFは、この割り当てを信頼性の高いクロスバリデーションサンプルに再推定することで、クラスへのLFの割り当てを洗練します。
論文 参考訳(メタデータ) (2022-04-14T10:29:01Z) - Label Augmentation with Reinforced Labeling for Weak Supervision [0.1529342790344802]
本稿では, 強化ラベリング (RL) と呼ばれる新しい手法を提案する。
RLはサンプル間の類似性に基づいてLFがカバーしていないケースに対してLFの出力を増大させる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
論文 参考訳(メタデータ) (2022-04-13T14:54:02Z) - Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming [14.639568384768042]
教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることである。
本研究では,この2つの限界を解くために,LFに基づく再重み付けフレームワークである ouralgoを提案する。
本アルゴリズムは、LF誘導に使用されるラベル付きデータセットと、ラベルなしデータとの結合モデルを半教師付きで学習する。
論文 参考訳(メタデータ) (2021-09-23T14:42:46Z) - OpenMatch: Open-set Consistency Regularization for Semi-supervised
Learning with Outliers [71.08167292329028]
我々はOpenMatchと呼ばれる新しいオープンセットセミスーパーバイザードラーニング(OSSL)アプローチを提案する。
OpenMatchは、1-vs-all(OVA)分類器に基づいた新規検出とFixMatchを統合する。
3つのデータセットで最先端のパフォーマンスを実現し、CIFAR10の未ラベルデータで見えないアウトリーチを検出する上で、完全な教師付きモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-28T23:57:15Z) - BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised
Named Entity Recognition [57.2201011783393]
条件付き隠れマルコフモデル(CHMM)
CHMMは、入力トークンのBERT埋め込みからトークン単位の遷移と放出確率を予測する。
BERTベースのNERモデルを微調整し、ラベルをCHMMで推論する。
論文 参考訳(メタデータ) (2021-05-26T21:18:48Z) - Semi-supervised Learning Meets Factorization: Learning to Recommend with
Chain Graph Model [16.007141894770054]
潜在因子モデル(LFM)は、優れたパフォーマンスとスケーラビリティのために、レコメンデーションシステムにおいて多くの注目を集めています。
半教師付き学習(SSL)は、ラベル(評価)の空間性の問題を軽減する効果的な方法を提供する。
SSL と LFM を結合する新しい確率的連鎖グラフモデル (CGM) を提案する。
論文 参考訳(メタデータ) (2020-03-05T06:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。