論文の概要: TransClean: Finding False Positives in Multi-Source Entity Matching under Real-World Conditions via Transitive Consistency
- arxiv url: http://arxiv.org/abs/2506.04006v1
- Date: Wed, 04 Jun 2025 14:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.38357
- Title: TransClean: Finding False Positives in Multi-Source Entity Matching under Real-World Conditions via Transitive Consistency
- Title(参考訳): TransClean: トランジショナル一貫性による実環境条件下でのマルチソースエンティティマッチングにおける偽陽性の検出
- Authors: Fernando de Meer Pardo, Branka Hadji Misheva, Martin Braschler, Kurt Stockinger,
- Abstract要約: 本研究では,実環境下でのエンティティマッチングアルゴリズムの偽陽性予測手法であるTransCleanを提案する。
TransCleanは、効率的で堅牢で高速な方法で複数のデータソースを操作するように設計されている。
実験の結果,TransCleanはマルチソース環境でのエンティティマッチングにおいて,平均+24.42F1スコアの改善を誘導することがわかった。
- 参考スコア(独自算出の注目度): 43.06143768014157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TransClean, a method for detecting false positive predictions of entity matching algorithms under real-world conditions characterized by large-scale, noisy, and unlabeled multi-source datasets that undergo distributional shifts. TransClean is explicitly designed to operate with multiple data sources in an efficient, robust and fast manner while accounting for edge cases and requiring limited manual labeling. TransClean leverages the Transitive Consistency of a matching, a measure of the consistency of a pairwise matching model f_theta on the matching it produces G_f_theta, based both on its predictions on directly evaluated record pairs and its predictions on implied record pairs. TransClean iteratively modifies a matching through gradually removing false positive matches while removing as few true positive matches as possible. In each of these steps, the estimation of the Transitive Consistency is exclusively done through model evaluations and produces quantities that can be used as proxies of the amounts of true and false positives in the matching while not requiring any manual labeling, producing an estimate of the quality of the matching and indicating which record groups are likely to contain false positives. In our experiments, we compare combining TransClean with a naively trained pairwise matching model (DistilBERT) and with a state-of-the-art end-to-end matching method (CLER) and illustrate the flexibility of TransClean in being able to detect most of the false positives of either setup across a variety of datasets. Our experiments show that TransClean induces an average +24.42 F1 score improvement for entity matching in a multi-source setting when compared to traditional pair-wise matching algorithms.
- Abstract(参考訳): 本稿では,大規模な,ノイズの多い,ラベルなしのマルチソースデータセットを特徴とする実世界の条件下でのエンティティマッチングアルゴリズムの偽陽性予測手法であるTransCleanを提案する。
TransCleanは、エッジケースを考慮し、限定的な手動ラベリングを必要としながら、効率的で堅牢で高速な方法で複数のデータソースを操作するように設計されている。
TransCleanは、直接評価されたレコード対の予測とインプリッドレコード対の予測の両方に基づいて、G_f_thetaを生成するマッチング上でのペアマッチングモデルf_thetaの一貫性の尺度である、マッチングのトランジティブ一貫性を利用する。
TransCleanは、偽陽性マッチを段階的に除去し、可能な限り真正マッチを除去することで、マッチングを反復的に修正する。
これらのステップのそれぞれにおいて、推移一貫性の推定は、モデル評価によってのみ行われ、手動ラベリングを必要とせず、マッチングにおける真と偽の正の量のプロキシとして使用できる量を生成し、マッチングの品質を推定し、どのレコード群が偽の正を含む可能性が高いかを示す。
実験では,TransCleanとNaively Trainingされたペアワイズマッチングモデル(DistilBERT)と,最先端のエンドツーエンドマッチング手法(CLER)を組み合わせることで,TransCleanの柔軟性を検証した。
実験の結果,TransCleanは,従来のペアワイドマッチングアルゴリズムと比較して,複数ソース設定におけるエンティティマッチングにおける平均+24.42F1スコアの改善を誘導することがわかった。
関連論文リスト
- From Invariant Representations to Invariant Data: Provable Robustness to Spurious Correlations via Noisy Counterfactual Matching [11.158961763380278]
最近の代替手段はテストタイムデータを活用することで堅牢性を向上させるが、実際にはそのようなデータは利用できないかもしれない。
不変なデータペアとノイズの多い逆ファクトマッチングを活用することで、データ中心のアプローチを取る。
我々は、合成データセット上で検証し、事前訓練されたバックボーン上の線形探索が堅牢性を向上させる実世界のベンチマークを実証する。
論文 参考訳(メタデータ) (2025-05-30T17:42:32Z) - Search-Based Correction of Reasoning Chains for Language Models [72.61861891295302]
CoT(Chain-of-Thought)推論は言語モデル(LM)の機能と透明性を向上した。
我々はCoTにおける各推論ステップを、その正確性を示す潜在変数で拡張する新しい自己補正フレームワークを導入する。
また,離散探索アルゴリズムであるサーチコレクタも導入した。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - GraLMatch: Matching Groups of Entities with Graphs and Language Models [35.75564019239946]
本稿では,エンドツーエンドのEntity Matching問題を提案する。
目標は、複数のデータソースから派生したレコードであるが、同じ現実世界のエンティティを表す、同じグループに割り当てることである。
擬似正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
論文 参考訳(メタデータ) (2024-06-21T09:44:16Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Contrastive pretraining for semantic segmentation is robust to noisy
positive pairs [0.0]
対照的学習のドメイン固有の変種は、2つの異なる画像から正のペアを構成することができる。
下流のセマンティックセグメンテーションはノイズの多いペアに対して堅牢か、あるいはそれらから恩恵を受けるかのどちらかである。
論文 参考訳(メタデータ) (2022-11-24T18:59:01Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Contrastive Attraction and Contrastive Repulsion for Representation
Learning [131.72147978462348]
コントラスト学習(CL)法は,複数の負のサンプルに対して,エンコーダが各正のサンプルと対比する自己超越的な方法でデータ表現を学習する。
最近のCL法は、ImageNetのような大規模データセットで事前訓練された場合、有望な結果を得た。
自己グループ内の正と負のサンプルを別々に比較し、正と負の群を対比して進行する2つのCL戦略を提案する。
論文 参考訳(メタデータ) (2021-05-08T17:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。