論文の概要: OpenSanctions Pairs: Large-Scale Entity Matching with LLMs
- arxiv url: http://arxiv.org/abs/2603.11051v1
- Date: Tue, 24 Feb 2026 06:25:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.595272
- Title: OpenSanctions Pairs: Large-Scale Entity Matching with LLMs
- Title(参考訳): OpenSanctions Pairs: LLMとの大規模エンティティマッチング
- Authors: Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de Witt,
- Abstract要約: 我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 0.9131359219276399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release OpenSanctions Pairs, a large-scale entity matching benchmark derived from real-world international sanctions aggregation and analyst deduplication. The dataset contains 755,540 labeled pairs spanning 293 heterogeneous sources across 31 countries, with multilingual and cross-script names, noisy and missing attributes, and set-valued fields typical of compliance workflows. We benchmark a production rule-based matcher (nomenklatura RegressionV1 algorithm) against open- and closed-source LLMs in zero- and few-shot settings. Off-the-shelf LLMs substantially outperform the production rule-based baseline (91.33\% F1), reaching up to 98.95\% F1 (GPT-4o) and 98.23\% F1 with a locally deployable open model (DeepSeek-R1-Distill-Qwen-14B). DSPy MIPROv2 prompt optimization yields consistent but modest gains, while adding in-context examples provides little additional benefit and can degrade performance. Error analysis shows complementary failure modes: the rule-based system over-matches (high false positives), whereas LLMs primarily fail on cross-script transliteration and minor identifier/date inconsistencies. These results indicate that pairwise matching performance is approaching a practical ceiling in this setting, and motivate shifting effort toward pipeline components such as blocking, clustering, and uncertainty-aware review. Code available at https://github.com/chansmi/OSINT_entity_resolution
- Abstract(参考訳): 我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31カ国で293の異種ソースにまたがる755,540のラベル付きペアが含まれている。
実運用ルールベースのマーカ(nomenklatura RegressionV1アルゴリズム)を,ゼロショットおよび少数ショット設定で,オープンソースおよびクローズドソースLLMに対してベンチマークする。
オフザシェルフ LLM は生産ルールベースのベースライン (91.33\% F1) をかなり上回り、98.95\% F1 (GPT-4o) と98.23\% F1 に到達し、ローカルに展開可能なオープンモデル (DeepSeek-R1-Distill-Qwen-14B) である。
DSPy MIPROv2 のプロンプト最適化により、一貫性はあるが穏やかなゲインが得られる一方で、コンテキスト内サンプルを追加することで、さらなるメリットはほとんど得られず、性能が低下する可能性がある。
エラー解析は相補的な障害モードを示す: ルールベースのシステムオーバーマッチ(高い偽陽性)に対して、LLMは主としてクロススクリプトの文字化と小さな識別子/日付の不整合で失敗する。
これらの結果は、ペアワイズマッチングのパフォーマンスがこの設定において実践的な天井に近づいており、ブロッキング、クラスタリング、不確実性認識レビューといったパイプラインコンポーネントへのシフトを動機付けていることを示している。
https://github.com/chansmi/OSINT_entity_ resolutionで利用可能なコード
関連論文リスト
- LLM-Driven Adaptive Source-Sink Identification and False Positive Mitigation for Static Analysis [0.0]
textscAdaTaintは、ソース/シンク仕様を適応的に推論し、ニューロシンボリック推論を通じて刺激的な警告をフィルタリングする。
textscAdaTaintは、プログラム事実と制約検証のモデル提案を基礎にして、適応性と決定性の両方を保証する。
結果はtextscAdaTaint がtextbf43.7% で偽陽性を減らし、textbf11.2% でリコールを改善することを示している。
論文 参考訳(メタデータ) (2025-11-06T03:44:10Z) - GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。
コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。
GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文 参考訳(メタデータ) (2025-09-27T15:36:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning [6.700515856842664]
We present Team asdfo123's submit to the LLMSR@XLLM25 shared task。
我々は、粒度、制御性、解釈可能な推論プロセスを生成する上で、大きな言語モデルを評価する。
提案手法は, マクロF1スコアを, より複雑で資源消費の少ないパイプラインと同等に達成し, 総合5位にランク付けする。
論文 参考訳(メタデータ) (2025-05-18T09:46:30Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - RAC: Efficient LLM Factuality Correction with Retrieval Augmentation [8.207682890286957]
大規模言語モデル(LLM)は、広範囲の自然言語処理(NLP)タスクにおいて印象的な結果を示すが、しばしば事実的に誤った出力を生成することができる。
本稿では,簡単な低遅延後補正手法である textbfRetrieval Augmented Correction (RAC) を提案する。
論文 参考訳(メタデータ) (2024-10-21T06:11:38Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。