論文の概要: Ground Truth Inference for Weakly Supervised Entity Matching
- arxiv url: http://arxiv.org/abs/2211.06975v1
- Date: Sun, 13 Nov 2022 17:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:13:19.279616
- Title: Ground Truth Inference for Weakly Supervised Entity Matching
- Title(参考訳): 弱教師付きエンティティマッチングのための地中真理推定
- Authors: Renzhi Wu, Alexander Bendeck, Xu Chu, Yeye He
- Abstract要約: 弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
- 参考スコア(独自算出の注目度): 76.6732856489872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity matching (EM) refers to the problem of identifying pairs of data
records in one or more relational tables that refer to the same entity in the
real world. Supervised machine learning (ML) models currently achieve
state-of-the-art matching performance; however, they require many labeled
examples, which are often expensive or infeasible to obtain. This has inspired
us to approach data labeling for EM using weak supervision. In particular, we
use the labeling function abstraction popularized by Snorkel, where each
labeling function (LF) is a user-provided program that can generate many noisy
match/non-match labels quickly and cheaply. Given a set of user-written LFs,
the quality of data labeling depends on a labeling model to accurately infer
the ground-truth labels. In this work, we first propose a simple but powerful
labeling model for general weak supervision tasks. Then, we tailor the labeling
model specifically to the task of entity matching by considering the
EM-specific transitivity property.
The general form of our labeling model is simple while substantially
outperforming the best existing method across ten general weak supervision
datasets. To tailor the labeling model for EM, we formulate an approach to
ensure that the final predictions of the labeling model satisfy the
transitivity property required in EM, utilizing an exact solution where
possible and an ML-based approximation in remaining cases. On two single-table
and nine two-table real-world EM datasets, we show that our labeling model
results in a 9% higher F1 score on average than the best existing method. We
also show that a deep learning EM end model (DeepMatcher) trained on labels
generated from our weak supervision approach is comparable to an end model
trained using tens of thousands of ground-truth labels, demonstrating that our
approach can significantly reduce the labeling efforts required in EM.
- Abstract(参考訳): エンティティマッチング(EM)は、1つ以上のリレーショナルテーブルにおいて、実世界の同じエンティティを参照するデータレコードのペアを識別する問題を指す。
Supervised Machine Learning (ML)モデルは、現在最先端のマッチング性能を達成しているが、多くのラベル付き例を必要とする。
これは、弱い監督力を使ってEMのデータラベリングにアプローチするきっかけとなった。
特に,Snorkelによって一般化されたラベル関数の抽象化では,各ラベル関数(LF)がユーザが提供するプログラムであり,ノイズの多いマッチ/非マッチラベルを迅速かつ安価に生成することができる。
ユーザ記述lfのセットが与えられた場合、データラベリングの品質はラベルモデルに依存し、接地ラベルを正確に推測する。
本稿では,まず,一般的な弱監督タスクに対して,単純かつ強力なラベル付けモデルを提案する。
次に、EM固有の推移特性を考慮して、エンティティマッチングのタスクに特化してラベルモデルを調整する。
当社のラベリングモデルの一般的な形式は単純で、10の一般的な弱い監督データセットで最高の既存メソッドを実質的に上回っています。
EMのラベリングモデルを調整するために,ラベリングモデルの最終予測がEMに必要な推移性を満たすことを保証するためのアプローチを定式化する。
2つのシングルテーブルおよび9つの2テーブル実世界のEMデータセットにおいて、我々のラベル付けモデルにより、最高の既存手法よりも平均9%高いF1スコアが得られることを示す。
また、我々の弱監督アプローチから生成されたラベルに基づいて訓練されたディープラーニングEMエンドモデル(DeepMatcher)が、何万もの地下構造ラベルを用いて訓練されたエンドモデルに匹敵することを示した。
関連論文リスト
- Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - Deep Partial Multi-Label Learning with Graph Disambiguation [27.908565535292723]
grAph-disambIguatioN (PLAIN) を用いた新しいディープ部分多重ラベルモデルを提案する。
具体的には、ラベルの信頼性を回復するために、インスタンスレベルとラベルレベルの類似性を導入する。
各トレーニングエポックでは、ラベルがインスタンスとラベルグラフに伝播し、比較的正確な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2023-05-10T04:02:08Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Mining Multi-Label Samples from Single Positive Labels [32.10330097419565]
条件付き生成逆数ネットワーク(cGAN)は、クラス条件生成タスクにおいて優れた結果を示している。
複数の条件を同時に制御するために、cGANは複数のラベルのトレーニングデータセットを必要とし、各データインスタンスに複数のラベルを割り当てることができる。
マルコフ連鎖モンテカルロ法に基づくS2Mサンプリングという新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-12T15:14:29Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z) - Label Confusion Learning to Enhance Text Classification Models [3.0251266104313643]
ラベル混乱モデル(lcm)はラベル間の意味的重複を捉えるためにラベル混乱を学習する。
lcmは、元のホットラベルベクトルを置き換えるより優れたラベル分布を生成することができる。
5つのテキスト分類ベンチマークデータセットの実験により、広く使われているディープラーニング分類モデルに対するLCMの有効性が明らかにされた。
論文 参考訳(メタデータ) (2020-12-09T11:34:35Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。