論文の概要: SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines
- arxiv url: http://arxiv.org/abs/2303.03132v1
- Date: Mon, 6 Mar 2023 13:49:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:55:31.326493
- Title: SC-Block: Supervised Contrastive Blocking within Entity Resolution
Pipelines
- Title(参考訳): SC-Block: エンティティ解決パイプライン内でのコントラストブロックの監視
- Authors: Alexander Brinkmann, Roee Shraga, Christian Bizer
- Abstract要約: 本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
その結果、SC-Blockはより小さな候補セットとパイプラインを生成することができ、SC-Blockは他のブロッカのパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。
- 参考スコア(独自算出の注目度): 75.5113002732746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of entity resolution is to identify records in multiple datasets
that represent the same real-world entity. However, comparing all records
across datasets can be computationally intensive, leading to long runtimes. To
reduce these runtimes, entity resolution pipelines are constructed of two
parts: a blocker that applies a computationally cheap method to select
candidate record pairs, and a matcher that afterwards identifies matching pairs
from this set using more expensive methods. This paper presents SC-Block, a
blocking method that utilizes supervised contrastive learning for positioning
records in the embedding space, and nearest neighbour search for candidate set
building. We benchmark SC-Block against eight state-of-the-art blocking
methods. In order to relate the training time of SC-Block to the reduction of
the overall runtime of the entity resolution pipeline, we combine SC-Block with
four matching methods into complete pipelines. For measuring the overall
runtime, we determine candidate sets with 98% pair completeness and pass them
to the matcher. The results show that SC-Block is able to create smaller
candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster
compared to pipelines with other blockers, without sacrificing F1 score.
Blockers are often evaluated using relatively small datasets which might lead
to runtime effects resulting from a large vocabulary size being overlooked. In
order to measure runtimes in a more challenging setting, we introduce a new
benchmark dataset that requires large numbers of product offers to be blocked.
On this large-scale benchmark dataset, pipelines utilizing SC-Block and the
best-performing matcher execute 8 times faster than pipelines utilizing another
blocker with the same matcher reducing the runtime from 2.5 hours to 18
minutes, clearly compensating for the 5 minutes required for training SC-Block.
- Abstract(参考訳): エンティティ解決の目標は、同じ現実世界のエンティティを表す複数のデータセット内のレコードを識別することだ。
しかし、データセットをまたいだすべてのレコードを比較することは計算集約的であり、長いランタイムに繋がる。
これらのランタイムを削減するために、エンティティレゾリューションパイプラインは2つの部分で構成されている: 候補レコードペアを選択するために計算コストの安いメソッドを適用するブロッカーと、より高価なメソッドを使用してこのセットからマッチングペアを識別するmatcherである。
本稿では,組込み空間における記録の位置決めに教師付きコントラスト学習を利用するブロック手法であるsc-blockと,候補集合ビルの近接探索を提案する。
SC-Blockを8つの最先端のブロッキング手法と比較した。
SC-Blockのトレーニング時間とエンティティ分解パイプライン全体の実行時間の短縮を関連付けるため、SC-Blockと4つのマッチングメソッドを完全なパイプラインに組み合わせる。
全体の実行時間を測定するために、98%のペア完全性を持つ候補集合を決定し、それらをマーカに渡す。
その結果、SC-Blockは、F1スコアを犠牲にすることなく、SC-Blockが他のブロッカを持つパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。
ブロッカは比較的小さなデータセットを使用して評価されることが多い。
より困難な環境でランタイムを測定するために、多数の製品の提供をブロックする必要がある新しいベンチマークデータセットを導入します。
この大規模なベンチマークデータセットでは、SC-Blockと最高のパフォーマンスのマーカを使用するパイプラインは、同じマーカを持つ別のブロッカを使用するパイプラインよりも8倍高速に実行され、ランタイムを2.5時間から18分に短縮する。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Block-Attention for Efficient RAG [3.926246435703829]
Block-Attentionは、Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処する。
各パスをブロックとして定義することで、Block-Attentionは、これまで見てきたパスのKV状態の再利用を可能にします。
4つのRAGベンチマークの実験では、ブロックの微調整後、Block-Attentionモデルが自己注意モデルに匹敵するパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-09-14T02:34:26Z) - FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。
既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。
本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文 参考訳(メタデータ) (2024-06-06T04:05:54Z) - Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。
制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。
1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文 参考訳(メタデータ) (2024-05-24T08:54:36Z) - Parsimonious Optimal Dynamic Partial Order Reduction [1.5029560229270196]
本稿では,Parsimonious-Optimal DPOR(POP)を提案する。
POPは、(i)同じ人種の複数の逆転を避ける擬似的な人種反転戦略を含む、いくつかの新しいアルゴリズム技術を組み合わせている。
我々のNidhuggの実装は、これらの手法が並列プログラムの解析を著しく高速化し、メモリ消費を抑えられることを示している。
論文 参考訳(メタデータ) (2024-05-18T00:07:26Z) - ShallowBlocker: Improving Set Similarity Joins for Blocking [1.8492669447784602]
古典的文字列類似度尺度に基づくハンズ・オフ・ブロッキング手法を提案する。
絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタを用いて、サイズフィルタを置換する。
本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。
論文 参考訳(メタデータ) (2023-12-26T00:31:43Z) - Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。
パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。
PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文 参考訳(メタデータ) (2023-01-29T13:38:43Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Beta-CROWN: Efficient Bound Propagation with Per-neuron Split
Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。
Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。
BaBを早期に終了することにより、不完全な検証にも使用できます。
論文 参考訳(メタデータ) (2021-03-11T11:56:54Z) - Distillation Guided Residual Learning for Binary Convolutional Neural
Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。
我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。
性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。
このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文 参考訳(メタデータ) (2020-07-10T07:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。