Fugu-MT 論文翻訳(概要): Multifile Partitioning for Record Linkage and Duplicate Detection

論文の概要: Multifile Partitioning for Record Linkage and Duplicate Detection

arxiv url: http://arxiv.org/abs/2110.03839v1
Date: Fri, 8 Oct 2021 00:47:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-11 16:26:12.252596
Title: Multifile Partitioning for Record Linkage and Duplicate Detection
Title（参考訳）: 記録リンクと重複検出のためのマルチファイルパーティショニング
Authors: Serge Aleshin-Guendel, Mauricio Sadinle
Abstract要約: マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。我々は、データ収集プロセスに関する事前情報を組み込むことができるパーティションのための構造化された事前提案のために、新しいパーティション表現を使用します。また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Merging datafiles containing information on overlapping sets of entities is a challenging task in the absence of unique identifiers, and is further complicated when some entities are duplicated in the datafiles. Most approaches to this problem have focused on linking two files assumed to be free of duplicates, or on detecting which records in a single file are duplicates. However, it is common in practice to encounter scenarios that fit somewhere in between or beyond these two settings. We propose a Bayesian approach for the general setting of multifile record linkage and duplicate detection. We use a novel partition representation to propose a structured prior for partitions that can incorporate prior information about the data collection processes of the datafiles in a flexible manner, and extend previous models for comparison data to accommodate the multifile setting. We also introduce a family of loss functions to derive Bayes estimates of partitions that allow uncertain portions of the partitions to be left unresolved. The performance of our proposed methodology is explored through extensive simulations. Code implementing the methodology is available at https://github.com/aleshing/multilink .
Abstract（参考訳）: 重複するエンティティの集合に関する情報を含むデータファイルのマージは、ユニークな識別子がない場合の課題であり、いくつかのエンティティがデータファイルに複製されるとさらに複雑になる。この問題に対するほとんどのアプローチは、2つのファイルの重複のないリンクや、1つのファイルでどのレコードが重複しているかを検出することに重点を置いている。しかし、実際にはこの2つの設定のどこかに合致するシナリオに遭遇することが一般的である。マルチファイルレコードリンクと重複検出の一般設定のためのベイズ的手法を提案する。我々は、データファイルのデータ収集プロセスに関する事前情報を柔軟に組み込んだパーティションのための構造化された事前表現を提案するために、新しいパーティション表現を使用し、マルチファイル設定に対応するために、比較データに対する以前のモデルを拡張します。また、分割の不確実な部分の未解決を許容する分割のベイズ推定を導出するために損失関数の族を導入する。提案手法の性能は広範囲なシミュレーションにより検証した。この方法論を実装するコードはhttps://github.com/aleshing/multilink で公開されている。

関連論文リスト

Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation [61.47019392413271]
WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。 WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
論文参考訳（メタデータ） (2025-11-01T20:08:13Z)
On the de-duplication of the Lakh MIDI dataset [19.748298436239818]
シンボリック・ミュージック・ドメインにおいて最も広く公開されているソースの一つであるLakh MIDIデータセット(LMD)に関するデータセット重複問題について検討した。 LMDのフィルタリストの3つの異なるバージョンを提案し、178,561ファイルのうち、少なくとも38,134のサンプルを最も保守的な設定でフィルタリングする。
論文参考訳（メタデータ） (2025-09-20T12:31:30Z)
Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文参考訳（メタデータ） (2025-05-20T06:44:34Z)
Subtopic-aware View Sampling and Temporal Aggregation for Long-form Document Matching [34.81690842091582]
長文文書マッチングは、2つの文書間の関係を判断することを目的としている。代表的マッチング信号のモデル化のための新しいフレームワークを提案する。我々の学習フレームワークは,ニュース重複や判例検索など,いくつかの文書マッチング作業に有効である。
論文参考訳（メタデータ） (2024-12-10T15:06:48Z)
Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。 GR$2$は2つの重要なコンポーネントに焦点を当てている。マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文参考訳（メタデータ） (2024-09-27T02:55:53Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
List-aware Reranking-Truncation Joint Model for Search and Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。 GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文参考訳（メタデータ） (2024-02-05T06:52:53Z)
PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction [28.205723817300576]
ドキュメントペア抽出は、キーエンティティとバリューエンティティの識別と、視覚的に豊富なドキュメントからの関連性の実現を目的としている。既存のほとんどのメソッドは、セマンティックエンティティ認識(SER)と関係抽出(RE)の2つのタスクに分割している。本稿では,統一パイプラインで文書ペア抽出を行う新しいフレームワークであるPEneoを紹介する。
論文参考訳（メタデータ） (2024-01-07T12:48:07Z)
Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文参考訳（メタデータ） (2023-01-03T15:33:48Z)
Learning the joint distribution of two sequences using little or no paired data [16.189575655434844]
本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
論文参考訳（メタデータ） (2022-12-06T18:56:15Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Spacing Loss for Discovering Novel Categories [72.52222295216062]
新たなクラスディスカバリ(NCD)は、マシンラーニングモデルがラベルのないデータからインスタンスを意味的にグループ化する、学習パラダイムである。まず,ラベル付きデータとラベルなしデータを併用する必要があるかどうかに基づいて,既存のNCD手法を1段階および2段階の手法に特徴付ける。多次元スケーリングのキューを用いて、潜在空間における分離性を強制する単純で強力な損失関数を考案する。
論文参考訳（メタデータ） (2022-04-22T09:37:11Z)
MREC: a fast and versatile framework for aligning and matching point clouds with applications to single cell molecular data [9.127253863263773]
我々は,データセット間のマッチングを計算するための分解アルゴリズムであるMRECを紹介し,研究する。このフレームワークは、マッチングの品質の絶対値を用いて、パーティショニング手順やマッチングアルゴリズムを含むパラメータの最適化をサポートする。単細胞分子データの解析において生じる多数のアライメント問題に適用することにより、いつうまく機能するかを記述し、その柔軟性とパワーを実証する手順を解析する。
論文参考訳（メタデータ） (2020-01-06T17:02:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。