論文の概要: EnsembleLink: Accurate Record Linkage Without Training Data
- arxiv url: http://arxiv.org/abs/2601.21138v1
- Date: Thu, 29 Jan 2026 00:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.48864
- Title: EnsembleLink: Accurate Record Linkage Without Training Data
- Title(参考訳): EnsembleLink: トレーニングデータなしでの正確なレコードリンク
- Authors: Noah Dasanaike,
- Abstract要約: トレーニングラベルを使わずに精度の高いEnsembleLinkを提案する。
都市名、人名、多言語政党の組織記録にまたがるベンチマークでは、EnsembleLinkがマッチするか、広範囲なラベリングを必要とするメソッドを超える。
このメソッドはオープンソースモデル上でローカルに動作し、外部API呼び出しを必要とせず、典型的なリンケージタスクを数分で完了する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Record linkage, the process of matching records that refer to the same entity across datasets, is essential to empirical social science but remains methodologically underdeveloped. Researchers treat it as a preprocessing step, applying ad hoc rules without quantifying the uncertainty that linkage errors introduce into downstream analyses. Existing methods either achieve low accuracy or require substantial labeled training data. I present EnsembleLink, a method that achieves high accuracy without any training labels. EnsembleLink leverages pre-trained language models that have learned semantic relationships (e.g., that "South Ozone Park" is a neighborhood in "New York City" or that "Lutte ouvriere" refers to the Trotskyist "Workers' Struggle" party) from large text corpora. On benchmarks spanning city names, person names, organizations, multilingual political parties, and bibliographic records, EnsembleLink matches or exceeds methods requiring extensive labeling. The method runs locally on open-source models, requiring no external API calls, and completes typical linkage tasks in minutes.
- Abstract(参考訳): 記録リンケージ(英: Record linkage)とは、データセット間で同じ実体を示すレコードをマッチングするプロセスであり、実証的な社会科学には不可欠であるが、方法論的にはまだ未発達である。
研究者は、リンクエラーが下流の分析にもたらす不確実性を定量化することなく、アドホックなルールを適用する前処理ステップとして扱う。
既存の方法は低い精度を達成するか、ラベル付きトレーニングデータを必要とする。
トレーニングラベルを使わずに精度の高いEnsembleLinkを提案する。
EnsembleLinkは、セマンティックな関係を学習した事前訓練された言語モデル(例えば、「南オゾンパーク」は「ニューヨーク」の地区である、あるいは「ルッテ・オーヴィエール」は大きなテキストコーパスからトロツキーの「ワーカーズ・ストルーグル」パーティーを指す)を活用している。
市名、人名、組織、多言語政党、書誌記録にまたがるベンチマークでは、EnsembleLinkは広範囲なラベリングを必要とする手法にマッチするか、超えている。
このメソッドはオープンソースモデル上でローカルに動作し、外部API呼び出しを必要とせず、典型的なリンケージタスクを数分で完了する。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Automated Collection of Evaluation Dataset for Semantic Search in Low-Resource Domain Language [4.5224851085910585]
多くの特定の用語を使用するドメイン固有言語は、しばしば低リソース言語に分類される。
本研究では,低リソースなドメイン固有ドイツ語のセマンティック検索を評価するために,テストデータセットの自動収集という課題に対処する。
論文 参考訳(メタデータ) (2024-12-13T09:47:26Z) - SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Focus on what matters: Applying Discourse Coherence Theory to Cross
Document Coreference [22.497877069528087]
ドキュメント間でのイベントとエンティティのコア参照の解決は、候補参照の数を大幅に増加させ、完全な$n2$ペアワイズ比較を行うことを難しくする。
既存のアプローチでは、ドキュメントクラスタ内でのコア参照のみを考慮することで単純化されているが、クラスタ間のコア参照を処理できない。
我々は、談話コヒーレンス理論の洞察に基づいて、潜在的コア推論は、読者の談話焦点によって制約される。
本手法は,ECB+,ガン・バイオレンス,フットボール・コアス,クロスドメイン・クロスドキュメント・コアス・コーパスにおけるイベントとエンティティの両面での最先端の成果を達成する。
論文 参考訳(メタデータ) (2021-10-11T15:41:47Z) - Joint Embedding in Named Entity Linking on Sentence Level [30.229263131244906]
知識グラフから学習した関係を最大化することにより,新しい統合埋め込み手法を提案する。
文レベルで参照エンティティをリンクする方法に重点を置いており、文書内の同じ参照の異なる出現によって生じるノイズを低減する。
論文 参考訳(メタデータ) (2020-02-12T12:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。