論文の概要: Multifile Partitioning for Record Linkage and Duplicate Detection
- arxiv url: http://arxiv.org/abs/2110.03839v1
- Date: Fri, 8 Oct 2021 00:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:26:12.252596
- Title: Multifile Partitioning for Record Linkage and Duplicate Detection
- Title(参考訳): 記録リンクと重複検出のためのマルチファイルパーティショニング
- Authors: Serge Aleshin-Guendel, Mauricio Sadinle
- Abstract要約: マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。
我々は、データ収集プロセスに関する事前情報を組み込むことができるパーティションのための構造化された事前提案のために、新しいパーティション表現を使用します。
また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Merging datafiles containing information on overlapping sets of entities is a
challenging task in the absence of unique identifiers, and is further
complicated when some entities are duplicated in the datafiles. Most approaches
to this problem have focused on linking two files assumed to be free of
duplicates, or on detecting which records in a single file are duplicates.
However, it is common in practice to encounter scenarios that fit somewhere in
between or beyond these two settings. We propose a Bayesian approach for the
general setting of multifile record linkage and duplicate detection. We use a
novel partition representation to propose a structured prior for partitions
that can incorporate prior information about the data collection processes of
the datafiles in a flexible manner, and extend previous models for comparison
data to accommodate the multifile setting. We also introduce a family of loss
functions to derive Bayes estimates of partitions that allow uncertain portions
of the partitions to be left unresolved. The performance of our proposed
methodology is explored through extensive simulations. Code implementing the
methodology is available at https://github.com/aleshing/multilink .
- Abstract(参考訳): 重複するエンティティの集合に関する情報を含むデータファイルのマージは、ユニークな識別子がない場合の課題であり、いくつかのエンティティがデータファイルに複製されるとさらに複雑になる。
この問題に対するほとんどのアプローチは、2つのファイルの重複のないリンクや、1つのファイルでどのレコードが重複しているかを検出することに重点を置いている。
しかし、実際にはこの2つの設定のどこかに合致するシナリオに遭遇することが一般的である。
マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。
我々は、データファイルのデータ収集プロセスに関する事前情報を柔軟に組み込んだパーティションのための構造化された事前表現を提案するために、新しいパーティション表現を使用し、マルチファイル設定に対応するために、比較データに対する以前のモデルを拡張します。
また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
提案手法の性能は広範囲なシミュレーションにより検証した。
この方法論を実装するコードはhttps://github.com/aleshing/multilink で公開されている。
関連論文リスト
- Leveraging Collection-Wide Similarities for Unsupervised Document
Structure Extraction [69.68042613919447]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for
End-to-end Document Pair Extraction [29.620120164447737]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。
既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。
本稿では,ライン抽出,ライングルーピング,エンティティリンクという3つの並列サブタスクを組み込んだ,統一パイプラインで文書ペア抽出を行うPEneoについて紹介する。
論文 参考訳(メタデータ) (2024-01-07T12:48:07Z) - PPN: Parallel Pointer-based Network for Key Information Extraction with
Complex Layouts [29.73609439825548]
キー情報抽出は、ドキュメントから構造化された値セマンティックエンティティを抽出することを目的とした課題である。
既存の手法は2段階のパイプライン戦略に従っており、エラー伝搬問題につながる可能性がある。
ゼロショットおよび少数ショットシナリオに適用可能なエンドツーエンドモデルであるParallel Pointer-based Network (PPN)を紹介する。
論文 参考訳(メタデータ) (2023-07-20T03:29:09Z) - Learning the joint distribution of two sequences using little or no
paired data [16.189575655434844]
本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。
ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:56:15Z) - Asymmetric Transfer Hashing with Adaptive Bipartite Graph Learning [95.54688542786863]
既存のハッシュ法では、クエリと検索サンプルは同じドメイン内の同質な特徴空間にあると仮定する。
教師なし/半教師付き/教師付き実現のための非対称トランスファーハッシュ(ATH)フレームワークを提案する。
非対称ハッシュ関数と二部グラフを共同最適化することにより、知識伝達が達成できるだけでなく、特徴アライメントによる情報損失も回避できる。
論文 参考訳(メタデータ) (2022-06-25T08:24:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。
まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。
多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文 参考訳(メタデータ) (2022-04-22T09:37:11Z) - Embracing Structure in Data for Billion-Scale Semantic Product Search [14.962039276966319]
我々は、数十億の規模でダイアドニューラル埋め込みモデルを訓練し、展開するための原則的アプローチを提案する。
実世界のデータセットの自然な構造を活用することで、両方の課題に効率的に対処できることが示される。
論文 参考訳(メタデータ) (2021-10-12T16:14:13Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - MREC: a fast and versatile framework for aligning and matching point
clouds with applications to single cell molecular data [9.127253863263773]
我々は,データセット間のマッチングを計算するための分解アルゴリズムであるMRECを紹介し,研究する。
このフレームワークは、マッチングの品質の絶対値を用いて、パーティショニング手順やマッチングアルゴリズムを含むパラメータの最適化をサポートする。
単細胞分子データの解析において生じる多数のアライメント問題に適用することにより、いつうまく機能するかを記述し、その柔軟性とパワーを実証する手順を解析する。
論文 参考訳(メタデータ) (2020-01-06T17:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。