論文の概要: ShallowBlocker: Improving Set Similarity Joins for Blocking
- arxiv url: http://arxiv.org/abs/2312.15835v1
- Date: Tue, 26 Dec 2023 00:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:19:32.833032
- Title: ShallowBlocker: Improving Set Similarity Joins for Blocking
- Title(参考訳): ShallowBlocker: ブロッキングのためのセット類似性の改善
- Authors: Nils Barlaug
- Abstract要約: 古典的文字列類似度尺度に基づくハンズ・オフ・ブロッキング手法を提案する。
絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタを用いて、サイズフィルタを置換する。
本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。
- 参考スコア(独自算出の注目度): 1.8492669447784602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blocking is a crucial step in large-scale entity matching but often requires
significant manual engineering from an expert for each new dataset. Recent work
has show that deep learning is state-of-the-art and has great potential for
achieving hands-off and accurate blocking compared to classical methods.
However, in practice, such deep learning methods are often unstable, offers
little interpretability, and require hyperparameter tuning and significant
computational resources.
In this paper, we propose a hands-off blocking method based on classical
string similarity measures: ShallowBlocker. It uses a novel hybrid set
similarity join combining absolute similarity, relative similarity, and local
cardinality conditions with a new effective pre-candidate filter replacing size
filter. We show that the method achieves state-of-the-art pair effectiveness on
both unsupervised and supervised blocking in a scalable way.
- Abstract(参考訳): ブロックは大規模なエンティティマッチングにおいて重要なステップだが、新しいデータセットごとに専門家から重要な手動エンジニアリングを必要とすることが多い。
近年の研究では、ディープラーニングは最先端技術であり、古典的な手法と比較して、ハンズオフと正確なブロッキングを実現する大きな可能性を秘めている。
しかし実際には、このようなディープラーニング手法はしばしば不安定であり、解釈可能性が少なく、ハイパーパラメータチューニングと重要な計算リソースを必要とする。
本稿では,ShallowBlockerという古典的文字列類似度尺度に基づくハンドオフブロッキング手法を提案する。
絶対類似性、相対類似性、局所濃度条件を組み合わせた新しいハイブリッド・セット類似性結合と、新しい有効候補前フィルタによるサイズフィルタを用いる。
本手法は,教師なしブロックと教師なしブロッキングの両方に対して,スケーラブルな方法で最先端のペアの有効性を実現する。
関連論文リスト
- Towards Universal Dense Blocking for Entity Resolution [49.06313308481536]
ドメインに依存しない、容易に観測可能なコーパス上で事前学習を行う密集型ブロッカであるUniBlockerを提案する。
ドメインに依存しない事前トレーニングを行うことで、UniBlockerはドメイン固有の微調整を必要とせずに、さまざまなダウンストリームブロッキングシナリオに適応できる。
提案したUniBlockerは、ドメイン固有の学習を一切行わず、従来の自己および教師なしの密なブロッキング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-04-23T08:39:29Z) - Block Sparse Bayesian Learning: A Diversified Scheme [16.61484758008309]
実世界のデータに広汎なブロック間隔現象を特徴付けるために, バラエティブロックスパース(Diversified Block Sparse)という小説を紹介した。
ブロック内分散およびブロック間相関行列の多様化を可能とすることにより、既存のブロックスパース学習手法の感度問題を事前に定義されたブロック情報に効果的に対処する。
論文 参考訳(メタデータ) (2024-02-07T08:18:06Z) - Approach of variable clustering and compression for learning large
Bayesian networks [0.0]
本稿では,特徴空間クラスタリングによるブロックに基づく大規模ベイズネットワークの学習手法について述べる。
提案手法の利点は, 作業速度だけでなく, 得られた構造物の精度も評価する。
論文 参考訳(メタデータ) (2022-08-29T13:55:32Z) - Block shuffling learning for Deepfake Detection [9.180904212520355]
畳み込みニューラルネットワーク(CNN)に基づくディープフェイク検出手法は精度が高いことを示した。
これらの手法は、未知の偽造法や共通変換に直面すると、しばしば性能が低下する。
本稿では,この問題に対処するためのブロックシャッフル正規化手法を提案する。
論文 参考訳(メタデータ) (2022-02-06T17:16:46Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Fast Network Community Detection with Profile-Pseudo Likelihood Methods [19.639557431997037]
ブロックモデル確率関数に適合するほとんどのアルゴリズムは、大規模ネットワークには拡張できない。
本稿では,行ラベルと列ラベルを疎結合する新たな可能性的アプローチを提案する。
本手法は,ブロックモデルにおいて,コミュニティの強い一貫した推定値を提供することを示す。
論文 参考訳(メタデータ) (2020-11-01T23:40:26Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - LoCo: Local Contrastive Representation Learning [93.98029899866866]
重なり合うローカルブロックが重なり合うことで、デコーダの深さを効果的に増加させ、上位ブロックが暗黙的に下位ブロックにフィードバックを送ることができることを示す。
このシンプルな設計は、ローカル学習とエンドツーエンドのコントラスト学習アルゴリズムのパフォーマンスギャップを初めて埋める。
論文 参考訳(メタデータ) (2020-08-04T05:41:29Z) - Selective Inference for Latent Block Models [50.83356836818667]
本研究では,潜在ブロックモデルに対する選択的推論法を提案する。
我々は,潜在ブロックモデルの行と列クラスタのメンバシップの集合に対する統計的テストを構築した。
提案された正確で近似されたテストは、選択バイアスを考慮していない単純なテストと比較して効果的に機能する。
論文 参考訳(メタデータ) (2020-05-27T10:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。