論文の概要: Multifile Partitioning for Record Linkage and Duplicate Detection
- arxiv url: http://arxiv.org/abs/2110.03839v1
- Date: Fri, 8 Oct 2021 00:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:26:12.252596
- Title: Multifile Partitioning for Record Linkage and Duplicate Detection
- Title(参考訳): 記録リンクと重複検出のためのマルチファイルパーティショニング
- Authors: Serge Aleshin-Guendel, Mauricio Sadinle
- Abstract要約: マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。
我々は、データ収集プロセスに関する事前情報を組み込むことができるパーティションのための構造化された事前提案のために、新しいパーティション表現を使用します。
また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging datafiles containing information on overlapping sets of entities is a
challenging task in the absence of unique identifiers, and is further
complicated when some entities are duplicated in the datafiles. Most approaches
to this problem have focused on linking two files assumed to be free of
duplicates, or on detecting which records in a single file are duplicates.
However, it is common in practice to encounter scenarios that fit somewhere in
between or beyond these two settings. We propose a Bayesian approach for the
general setting of multifile record linkage and duplicate detection. We use a
novel partition representation to propose a structured prior for partitions
that can incorporate prior information about the data collection processes of
the datafiles in a flexible manner, and extend previous models for comparison
data to accommodate the multifile setting. We also introduce a family of loss
functions to derive Bayes estimates of partitions that allow uncertain portions
of the partitions to be left unresolved. The performance of our proposed
methodology is explored through extensive simulations. Code implementing the
methodology is available at https://github.com/aleshing/multilink .
- Abstract(参考訳): 重複するエンティティの集合に関する情報を含むデータファイルのマージは、ユニークな識別子がない場合の課題であり、いくつかのエンティティがデータファイルに複製されるとさらに複雑になる。
この問題に対するほとんどのアプローチは、2つのファイルの重複のないリンクや、1つのファイルでどのレコードが重複しているかを検出することに重点を置いている。
しかし、実際にはこの2つの設定のどこかに合致するシナリオに遭遇することが一般的である。
マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。
我々は、データファイルのデータ収集プロセスに関する事前情報を柔軟に組み込んだパーティションのための構造化された事前表現を提案するために、新しいパーティション表現を使用し、マルチファイル設定に対応するために、比較データに対する以前のモデルを拡張します。
また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
提案手法の性能は広範囲なシミュレーションにより検証した。
この方法論を実装するコードはhttps://github.com/aleshing/multilink で公開されている。
関連論文リスト
- Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction [28.205723817300576]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z) - Learning the joint distribution of two sequences using little or no
paired data [16.189575655434844]
本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。
ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:56:15Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - MREC: a fast and versatile framework for aligning and matching point
clouds with applications to single cell molecular data [9.127253863263773]
我々は,データセット間のマッチングを計算するための分解アルゴリズムであるMRECを紹介し,研究する。
このフレームワークは、マッチングの品質の絶対値を用いて、パーティショニング手順やマッチングアルゴリズムを含むパラメータの最適化をサポートする。
単細胞分子データの解析において生じる多数のアライメント問題に適用することにより、いつうまく機能するかを記述し、その柔軟性とパワーを実証する手順を解析する。
論文 参考訳(メタデータ) (2020-01-06T17:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。