論文の概要: Entity Matching by Pool-based Active Learning
- arxiv url: http://arxiv.org/abs/2211.00311v1
- Date: Tue, 1 Nov 2022 07:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 14:44:09.922837
- Title: Entity Matching by Pool-based Active Learning
- Title(参考訳): プール型アクティブラーニングによるエンティティマッチング
- Authors: Youfang Han, Chunping Li
- Abstract要約: 本稿では,エンティティマッチングタスクのためのアクティブラーニング手法ALMatcherを提案する。
この方法は、少数の貴重なサンプルのみを手動でラベル付けし、これらのサンプルを使用して高品質なモデルを構築する必要がある。
提案手法は,異なるフィールドの7つのデータセットに対して検証された。
- 参考スコア(独自算出の注目度): 2.690502103971799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of entity matching is to find the corresponding records representing
the same real-world entity from different data sources. At present, in the
mainstream methods, rule-based entity matching methods need tremendous domain
knowledge. The machine-learning based or deep-learning based entity matching
methods need a large number of labeled samples to build the model, which is
difficult to achieve in some applications. In addition, learning-based methods
are easy to over-fitting, so the quality requirements of training samples are
very high. In this paper, we present an active learning method ALMatcher for
the entity matching tasks. This method needs to manually label only a small
number of valuable samples, and use these samples to build a model with high
quality. This paper proposes a hybrid uncertainty as query strategy to find
those valuable samples for labeling, which can minimize the number of labeled
training samples meanwhile meet the task requirements. The proposed method has
been validated on seven data sets in different fields. The experiment shows
that ALMatcher uses only a small number of labeled samples and achieves better
results compared to existing approaches.
- Abstract(参考訳): エンティティマッチングの目標は、異なるデータソースから同じ実世界エンティティを表す対応するレコードを見つけることである。
現在、主流の手法では、ルールベースのエンティティマッチング方法には膨大なドメイン知識が必要です。
機械学習ベースまたはディープラーニングベースのエンティティマッチングメソッドは、モデルを構築するために大量のラベル付きサンプルを必要とするため、いくつかのアプリケーションでは達成が難しい。
さらに、学習ベースの手法は過度に適合しやすいため、トレーニングサンプルの品質要件は非常に高い。
本稿では,エンティティマッチングタスクのためのアクティブラーニング手法ALMatcherを提案する。
この方法は、少数の貴重なサンプルのみを手動でラベル付けし、これらのサンプルを使用して高品質のモデルを構築する必要がある。
本稿では,ラベル付きトレーニングサンプルの数を最小化し,課題要件を満たすためのクエリ手法としてのハイブリッド不確実性を提案する。
提案手法は異なる分野の7つのデータセットで検証されている。
実験の結果、ALMatcherは少数のラベル付きサンプルしか使用せず、既存のアプローチよりも優れた結果が得られることがわかった。
関連論文リスト
- Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation [1.3157419797035321]
本稿では,既存情報の利用を最大化する観点から,新しいサンプルインスタンス分割法を提案する。
まず、ラベルのないデータを学習して擬似ラベルを生成し、利用可能なサンプルの数を増やすことで、モデルが完全に活用するのに役立つ。
第二に、テキストと画像の特徴を統合することにより、より正確な分類結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-21T14:44:08Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - Deep Active Learning with Contrastive Learning Under Realistic Data Pool
Assumptions [2.578242050187029]
アクティブラーニングは、モデルが望まれる精度を迅速に到達できるようにする、ラベルのないデータプールから最も情報性の高いデータを特定することを目的としている。
既存のアクティブラーニング手法の多くは、未ラベルのデータプールに対象タスクに関連するサンプルのみが存在する理想的な環境で評価されている。
我々は,不明瞭でタスク非関連なアウト・オブ・ディストリビューションと,イン・ディストリビューション・サンプルを含む,新しいアクティブ・ラーニング・ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-25T10:46:10Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Active Learning in Incomplete Label Multiple Instance Multiple Label
Learning [17.5720245903743]
MIML設定におけるアクティブラーニングのための新しいバッグクラスペア方式を提案する。
我々のアプローチは、効率的かつ正確な推論を伴う識別的グラフィカルモデルに基づいている。
論文 参考訳(メタデータ) (2021-07-22T17:01:28Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Cooperative Bi-path Metric for Few-shot Learning [50.98891758059389]
数発の分類問題の調査に2つの貢献をしている。
本稿では,従来の教師あり学習法において,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。
本稿では, 基礎クラスと新しいクラス間の相関を利用して, 精度の向上を図る, 分類のための協調的二経路計量を提案する。
論文 参考訳(メタデータ) (2020-08-10T11:28:52Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。