Fugu-MT 論文翻訳(概要): SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines

論文の概要: SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines

arxiv url: http://arxiv.org/abs/2303.03132v1
Date: Mon, 6 Mar 2023 13:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 15:55:31.326493
Title: SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines
Title（参考訳）: SC-Block: エンティティ解決パイプライン内でのコントラストブロックの監視
Authors: Alexander Brinkmann, Roee Shraga, Christian Bizer
Abstract要約: 本稿では,教師付きコントラスト学習を利用した埋め込み空間におけるレコードの位置決め手法であるSC-Blockを提案する。 SC-Blockを8つの最先端のブロッキング手法と比較した。その結果、SC-Blockはより小さな候補セットとパイプラインを生成することができ、SC-Blockは他のブロッカのパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。
参考スコア（独自算出の注目度）: 75.5113002732746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of entity resolution is to identify records in multiple datasets that represent the same real-world entity. However, comparing all records across datasets can be computationally intensive, leading to long runtimes. To reduce these runtimes, entity resolution pipelines are constructed of two parts: a blocker that applies a computationally cheap method to select candidate record pairs, and a matcher that afterwards identifies matching pairs from this set using more expensive methods. This paper presents SC-Block, a blocking method that utilizes supervised contrastive learning for positioning records in the embedding space, and nearest neighbour search for candidate set building. We benchmark SC-Block against eight state-of-the-art blocking methods. In order to relate the training time of SC-Block to the reduction of the overall runtime of the entity resolution pipeline, we combine SC-Block with four matching methods into complete pipelines. For measuring the overall runtime, we determine candidate sets with 98% pair completeness and pass them to the matcher. The results show that SC-Block is able to create smaller candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster compared to pipelines with other blockers, without sacrificing F1 score. Blockers are often evaluated using relatively small datasets which might lead to runtime effects resulting from a large vocabulary size being overlooked. In order to measure runtimes in a more challenging setting, we introduce a new benchmark dataset that requires large numbers of product offers to be blocked. On this large-scale benchmark dataset, pipelines utilizing SC-Block and the best-performing matcher execute 8 times faster than pipelines utilizing another blocker with the same matcher reducing the runtime from 2.5 hours to 18 minutes, clearly compensating for the 5 minutes required for training SC-Block.
Abstract（参考訳）: エンティティ解決の目標は、同じ現実世界のエンティティを表す複数のデータセット内のレコードを識別することだ。しかし、データセットをまたいだすべてのレコードを比較することは計算集約的であり、長いランタイムに繋がる。これらのランタイムを削減するために、エンティティレゾリューションパイプラインは2つの部分で構成されている: 候補レコードペアを選択するために計算コストの安いメソッドを適用するブロッカーと、より高価なメソッドを使用してこのセットからマッチングペアを識別するmatcherである。本稿では,組込み空間における記録の位置決めに教師付きコントラスト学習を利用するブロック手法であるsc-blockと,候補集合ビルの近接探索を提案する。 SC-Blockを8つの最先端のブロッキング手法と比較した。 SC-Blockのトレーニング時間とエンティティ分解パイプライン全体の実行時間の短縮を関連付けるため、SC-Blockと4つのマッチングメソッドを完全なパイプラインに組み合わせる。全体の実行時間を測定するために、98%のペア完全性を持つ候補集合を決定し、それらをマーカに渡す。その結果、SC-Blockは、F1スコアを犠牲にすることなく、SC-Blockが他のブロッカを持つパイプラインに比べて1.5倍から2倍高速に実行できることがわかった。ブロッカは比較的小さなデータセットを使用して評価されることが多い。より困難な環境でランタイムを測定するために、多数の製品の提供をブロックする必要がある新しいベンチマークデータセットを導入します。この大規模なベンチマークデータセットでは、SC-Blockと最高のパフォーマンスのマーカを使用するパイプラインは、同じマーカを持つ別のブロッカを使用するパイプラインよりも8倍高速に実行され、ランタイムを2.5時間から18分に短縮する。

関連論文リスト

HelixPipe: Efficient Distributed Training of Long Sequence Transformers with Attention Parallel Pipeline Parallelism [14.067070576474086]
トランスシークエンスの長さが大きくなるにつれて、既存のパイプライン並列処理は2次注意計算とかなりのメモリオーバーヘッドのため、最適以下の性能を実現する。長周期変圧器訓練のための新しいパイプライン並列性であるHelixPipeを提案する。これは、異なるパイプラインステージ間で異なるマイクロバッチのアテンション計算を並列にスケジュールし、パイプラインバブルを減少させる、アテンション並列パーティションを導入している。メモリ使用量のバランスと、フラグメンテーションによる重複通信のバランスをとるために、2倍の第一段階のマイクロバッチスケジュールを採用している。
論文参考訳（メタデータ） (2025-07-01T03:11:18Z)
JointRank: Rank Large Set with Single Pass [0.0]
モデル入力限界を超える大集合を高速に復位するモデルに依存しない手法を提案する。本手法は, 57.68に対して70.88のnDCG@10を実現していることを示す。
論文参考訳（メタデータ） (2025-06-27T14:30:12Z)
Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。本稿では,LCLM検索に適した新しい圧縮手法を提案する。また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文参考訳（メタデータ） (2024-12-24T07:30:55Z)
Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。 SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文参考訳（メタデータ） (2024-10-22T17:59:30Z)
Block-Attention for Efficient RAG [3.926246435703829]
Block-Attentionは、Retrieval-Augmented Generation(RAG)シナリオにおける推論遅延の増加とコストに対処する。各パスをブロックとして定義することで、Block-Attentionは、これまで見てきたパスのKV状態の再利用を可能にします。 4つのRAGベンチマークの実験では、ブロックの微調整後、Block-Attentionモデルが自己注意モデルに匹敵するパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2024-09-14T02:34:26Z)
FastGAS: Fast Graph-based Annotation Selection for In-Context Learning [53.17606395275021]
インコンテキスト学習(ICL)は、大規模言語モデル(LLM)に対して、一連のトレーニングインスタンスをプロンプトとして使用することにより、新しいタスクに対処する権限を与える。既存の手法では、アノテーションのラベルなし例のサブセットを選択する方法が提案されている。本稿では,高品質なインスタンスを効率的に識別するグラフベースの選択手法であるFastGASを提案する。
論文参考訳（メタデータ） (2024-06-06T04:05:54Z)
Pipeline Parallelism with Controllable Memory [6.135123843073223]
既存のパイプラインスケジュールのほとんどすべてがメモリ非効率であることが示されています。制御可能なアクティベーションメモリを備えた,メモリ効率の良いビルディングブロック群を紹介する。 1F1Bと同じアクティベーションメモリを維持しながら、ほぼゼロのパイプラインバブルを実現することができる。
論文参考訳（メタデータ） (2024-05-24T08:54:36Z)
Parsimonious Optimal Dynamic Partial Order Reduction [1.5029560229270196]
本稿では,Parsimonious-Optimal DPOR(POP)を提案する。 POPは、(i)同じ人種の複数の逆転を避ける擬似的な人種反転戦略を含む、いくつかの新しいアルゴリズム技術を組み合わせている。我々のNidhuggの実装は、これらの手法が並列プログラムの解析を著しく高速化し、メモリ消費を抑えられることを示している。
論文参考訳（メタデータ） (2024-05-18T00:07:26Z)
ShallowBlocker: Improving Set Similarity Joins for Blocking [1.8492669447784602]
古典的文字列類似度尺度に基づくハンズ・オフ・ブロッキング手法を提案する。絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタを用いて、サイズフィルタを置換する。本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。
論文参考訳（メタデータ） (2023-12-26T00:31:43Z)
Pipe-BD: Pipelined Parallel Blockwise Distillation [7.367308544773381]
ブロックワイド蒸留のための新しい並列化法であるパイプ-BDを提案する。パイプ-BDはパイプライン並列性をブロックワイド蒸留に積極的に利用する。 PyTorch 上で Pipe-BD を実装し,複数のシナリオやモデル,データセットに対して Pipe-BD が有効であることを示す実験を行った。
論文参考訳（メタデータ） (2023-01-29T13:38:43Z)
Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。エンドツーエンドのNAR音声認識システムを提案する。提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文参考訳（メタデータ） (2021-07-20T11:42:26Z)
Beta-CROWN: Efficient Bound Propagation with Per-neuron Split Constraints for Complete and Incomplete Neural Network Verification [151.62491805851107]
私たちは、ニューロン毎の分割を完全にエンコードできるバウンド伝搬ベースの検証器である$beta$-crownを開発した。 Beta$-CROWNはLPベースのBaB法よりも3桁近い速さで堅牢性検証が可能です。 BaBを早期に終了することにより、不完全な検証にも使用できます。
論文参考訳（メタデータ） (2021-03-11T11:56:54Z)
AugSplicing: Synchronized Behavior Detection in Streaming Tensors [38.90084196554039]
本稿では,より高速なストリーミングアルゴリズムであるAugSplicingを提案する。現状の手法と比較して,本手法は,(1)実世界のアプリケーションのデータをインストールする際の不正行為を検知し,キャンパスWi-Fiデータに興味深い特徴を持つ学生群を見つけるのに有効である。
論文参考訳（メタデータ） (2020-12-03T15:39:58Z)
Distillation Guided Residual Learning for Binary Convolutional Neural Networks [83.6169936912264]
Binary CNN(BCNN)とFloating Point CNN(FCNN)のパフォーマンスギャップを埋めることは難しい。我々は,この性能差が,BCNNとFCNNの中間特徴写像の間にかなりの残差をもたらすことを観察した。性能ギャップを最小限に抑えるため,BCNN は FCNN と同様の中間特徴写像を生成する。このトレーニング戦略、すなわち、FCNNから派生したブロックワイド蒸留損失で各バイナリ畳み込みブロックを最適化することで、BCNNをより効果的に最適化する。
論文参考訳（メタデータ） (2020-07-10T07:55:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。