論文の概要: SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines
- arxiv url: http://arxiv.org/abs/2303.03132v2
- Date: Fri, 23 Jun 2023 12:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:04:44.961771
- Title: SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines
- Title(参考訳): SC-Block: エンティティ解決パイプライン内でのコントラストブロックの監視
- Authors: Alexander Brinkmann, Roee Shraga, Christian Bizer
- Abstract要約: 本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
- 参考スコア(独自算出の注目度): 75.5113002732746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of entity resolution is to identify records in multiple datasets
that represent the same real-world entity. However, comparing all records
across datasets can be computationally intensive, leading to long runtimes. To
reduce these runtimes, entity resolution pipelines are constructed of two
parts: a blocker that applies a computationally cheap method to select
candidate record pairs, and a matcher that afterwards identifies matching pairs
from this set using more expensive methods. This paper presents SC-Block, a
blocking method that utilizes supervised contrastive learning for positioning
records in the embedding space, and nearest neighbour search for candidate set
building. We benchmark SC-Block against eight state-of-the-art blocking
methods. In order to relate the training time of SC-Block to the reduction of
the overall runtime of the entity resolution pipeline, we combine SC-Block with
four matching methods into complete pipelines. For measuring the overall
runtime, we determine candidate sets with 99.5% pair completeness and pass them
to the matcher. The results show that SC-Block is able to create smaller
candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster
compared to pipelines with other blockers, without sacrificing F1 score.
Blockers are often evaluated using relatively small datasets which might lead
to runtime effects resulting from a large vocabulary size being overlooked. In
order to measure runtimes in a more challenging setting, we introduce a new
benchmark dataset that requires large numbers of product offers to be blocked.
On this large-scale benchmark dataset, pipelines utilizing SC-Block and the
best-performing matcher execute 8 times faster than pipelines utilizing another
blocker with the same matcher reducing the runtime from 2.5 hours to 18
minutes, clearly compensating for the 5 minutes required for training SC-Block.
- Abstract(参考訳): エンティティ解決の目標は、同じ現実世界のエンティティを表す複数のデータセット内のレコードを識別することだ。
しかし、データセットをまたいだすべてのレコードを比較することは計算集約的であり、長いランタイムに繋がる。
これらのランタイムを削減するために、エンティティレゾリューションパイプラインは2つの部分で構成されている: 候補レコードペアを選択するために計算コストの安いメソッドを適用するブロッカーと、より高価なメソッドを使用してこのセットからマッチングペアを識別するmatcherである。
本稿では,組込み空間における記録の位置決めに教師付きコントラスト学習を利用するブロック手法であるsc-blockと,候補集合ビルの近接探索を提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
SC-Blockのトレーニング時間とエンティティ分解パイプライン全体の実行時間の短縮を関連付けるため、SC-Blockと4つのマッチングメソッドを完全なパイプラインに組み合わせる。
全体の実行時間を測定するため、99.5%の完全性を持つ候補集合を決定し、それらをマーカに渡す。
その結果、SC-Blockは、F1スコアを犠牲にすることなく、SC-Blockが他のブロッカを持つパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。
ブロッカは比較的小さなデータセットを使用して評価されることが多い。
より困難な環境でランタイムを測定するために、多数の製品の提供をブロックする必要がある新しいベンチマークデータセットを導入します。
この大規模なベンチマークデータセットでは、SC-Blockと最高のパフォーマンスのマーカを使用するパイプラインは、同じマーカを持つ別のブロッカを使用するパイプラインよりも8倍高速に実行され、ランタイムを2.5時間から18分に短縮する。
関連論文リスト
- ShallowBlocker: Improving Set Similarity Joins for Blocking [1.8492669447784602]
古典的文字列類似度尺度に基づくハンズ・オフ・ブロッキング手法を提案する。
絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタを用いて、サイズフィルタを置換する。
本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。
論文 参考訳(メタデータ) (2023-12-26T00:31:43Z) - Divide&Classify: Fine-Grained Classification for City-Wide Visual Place
Recognition [21.039399444257807]
ディバイド&クラス化(D&C)は、分類ソリューションの高速な推論と、都市全体のきめ細かい設定で検索方法と競合する精度を享受する。
我々は,D&Cを既存の検索パイプラインと組み合わせることで,計算処理を20倍以上高速化し,リコールを増大させることができることを示す。
論文 参考訳(メタデータ) (2023-07-17T11:57:04Z) - Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。
パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。
PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-01-29T13:38:43Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - AugSplicing: Synchronized Behavior Detection in Streaming Tensors [38.90084196554039]
本稿では,より高速なストリーミングアルゴリズムであるAugSplicingを提案する。
現状の手法と比較して,本手法は,(1)実世界のアプリケーションのデータをインストールする際の不正行為を検知し,キャンパスWi-Fiデータに興味深い特徴を持つ学生群を見つけるのに有効である。
論文 参考訳(メタデータ) (2020-12-03T15:39:58Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z) - Qd-tree: Learning Data Layouts for Big Data Analytics [33.07610112749939]
本稿では、クエリデータルーティングツリー(qd-tree)と呼ばれる新しいフレームワークを提案し、この問題に対処する。
実験により、qd木は現在のブロッキング方式と比較して1桁以上の物理的スピードアップを提供できることが示された。
論文 参考訳(メタデータ) (2020-04-22T23:42:59Z) - Distributed Optimization over Block-Cyclic Data [48.317899174302305]
本研究では,クライアントの非平衡データと非等化データをブロック循環構造とするフェデレート学習の基礎となる実践的データ特性について考察する。
マルチモデル並列SGD(MM-PSGD)とマルチチェーン並列SGD(MC-PSGD)という2つの新しい分散最適化アルゴリズムを提案する。
提案アルゴリズムは, 従来のフェデレーション平均化アルゴリズムよりも精度が高く, 臨界パラメータの分散に対するロバスト性を保っている。
論文 参考訳(メタデータ) (2020-02-18T09:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。