論文の概要: Deep Indexed Active Learning for Matching Heterogeneous Entity
Representations
- arxiv url: http://arxiv.org/abs/2104.03986v1
- Date: Thu, 8 Apr 2021 18:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:15:38.400681
- Title: Deep Indexed Active Learning for Matching Heterogeneous Entity
Representations
- Title(参考訳): 不均一エンティティ表現のマッチングのためのディープインデックスアクティブラーニング
- Authors: Arjit Jain, Sunita Sarawagi, Prithviraj Sen
- Abstract要約: 本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。
5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。
- 参考スコア(独自算出の注目度): 20.15233789156307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given two large lists of records, the task in entity resolution (ER) is to
find the pairs from the Cartesian product of the lists that correspond to the
same real world entity. Typically, passive learning methods on tasks like ER
require large amounts of labeled data to yield useful models. Active Learning
is a promising approach for ER in low resource settings. However, the search
space, to find informative samples for the user to label, grows quadratically
for instance-pair tasks making active learning hard to scale. Previous works,
in this setting, rely on hand-crafted predicates, pre-trained language model
embeddings, or rule learning to prune away unlikely pairs from the Cartesian
product. This blocking step can miss out on important regions in the product
space leading to low recall. We propose DIAL, a scalable active learning
approach that jointly learns embeddings to maximize recall for blocking and
accuracy for matching blocked pairs. DIAL uses an Index-By-Committee framework,
where each committee member learns representations based on powerful
transformer models. We highlight surprising differences between the matcher and
the blocker in the creation of the training data and the objective used to
train their parameters. Experiments on five benchmark datasets and a
multilingual record matching dataset show the effectiveness of our approach in
terms of precision, recall and running time. Code is available at
https://github.com/ArjitJ/DIAL
- Abstract(参考訳): レコードの2つの大きなリストが与えられたとき、エンティティ解決(er)のタスクは、同じ現実世界のエンティティに対応するリストのデカルト積からペアを見つけることである。
通常、ERのようなタスクにおける受動的学習法は、有用なモデルを生成するために大量のラベル付きデータを必要とする。
アクティブラーニングは、低リソース環境でerに有望なアプローチである。
しかし、ユーザがラベルを付けるための情報的サンプルを見つけるための検索空間は、アクティブな学習をスケールしにくくするインスタンスペアタスクにおいて、二次的に成長する。
この設定では、手作りの述語、事前訓練された言語モデルの埋め込み、あるいはカルテシアン製品から不可能なペアを抽出するためのルール学習に依存している。
このブロッキングステップは、低いリコールにつながる製品領域の重要な領域を見逃す可能性がある。
本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。
DIALはIndex-By-Committeeフレームワークを使用しており、各委員会メンバーは強力なトランスフォーマーモデルに基づいて表現を学ぶ。
学習データの作成におけるマッチングとブロッカの驚くべき違いと,そのパラメータのトレーニングに使用される目的について注目する。
5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。
コードはhttps://github.com/ArjitJ/DIALで入手できる。
関連論文リスト
- Contextual Dual Learning Algorithm with Listwise Distillation for Unbiased Learning to Rank [26.69630281310365]
Unbiased Learning to Rank (ULTR)は、バイアスのないユーザのフィードバック(例えばクリック)を活用して、バイアスのないランキングモデルを最適化することを目的としている。
位置バイアスと文脈バイアスの両方に対処するため,CDLA-LD(Contextual Dual Learning Algorithm)を提案する。
論文 参考訳(メタデータ) (2024-08-19T09:13:52Z) - Hypergraph Enhanced Knowledge Tree Prompt Learning for Next-Basket
Recommendation [50.55786122323965]
次バスケットレコメンデーション(NBR)は、対応するバスケットシーケンスが与えられた次のバスケット内のアイテムを推論することを目的としている。
HEKP4NBRは知識グラフ(KG)をKTP(Knowledge Tree Prompt)と呼ばれるプロンプトに変換し、PLMがOOV(Out-Of-Vocabulary)アイテムIDをエンコードするのを助ける。
ハイパーグラフ畳み込みモジュールは、複数の側面からMoEモデルによって測定されたアイテム類似性に基づいてハイパーグラフを構築するように設計されている。
論文 参考訳(メタデータ) (2023-12-26T02:12:21Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - Novel Batch Active Learning Approach and Its Application to Synthetic
Aperture Radar Datasets [7.381841249558068]
近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。
そこで我々は,Dijkstraのコアセット生成用Annulus Core-Set(DAC)とバッチサンプリング用LocalMaxという,バッチアクティブラーニングのための新しい2部構成のアプローチを開発した。
DACとLocalMaxを組み合わせたバッチアクティブラーニングプロセスは、逐次アクティブラーニングとほぼ同じ精度で、バッチサイズに比例して効率的である。
論文 参考訳(メタデータ) (2023-07-19T23:25:21Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Learning to Match Jobs with Resumes from Sparse Interaction Data using
Multi-View Co-Teaching Network [83.64416937454801]
ジョブ列のインタラクションデータは疎結合でノイズが多く、ジョブ列のマッチングアルゴリズムのパフォーマンスに影響する。
求人情報マッチングのための疎相互作用データから,新しいマルチビュー協調学習ネットワークを提案する。
我々のモデルは求人マッチングの最先端手法より優れている。
論文 参考訳(メタデータ) (2020-09-25T03:09:54Z) - A Comprehensive Benchmark Framework for Active Learning Methods in
Entity Matching [17.064993611446898]
本稿では,EMのための統合型アクティブラーニングベンチマークフレームワークを構築する。
このフレームワークの目的は、積極的学習の組み合わせがEMにどのような効果をもたらすかについて、実践者のための具体的なガイドラインを可能にすることである。
また、F1スコアの観点から学習モデルの品質を約9%向上し、モデルの品質に影響を与えることなく、サンプル選択のレイテンシを最大10倍削減する新しい最適化も含んでいる。
論文 参考訳(メタデータ) (2020-03-29T19:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。