論文の概要: A Robust and Efficient Pipeline for Enterprise-Level Large-Scale Entity Resolution
- arxiv url: http://arxiv.org/abs/2508.03767v1
- Date: Tue, 05 Aug 2025 02:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.380232
- Title: A Robust and Efficient Pipeline for Enterprise-Level Large-Scale Entity Resolution
- Title(参考訳): エンタープライズレベルの大規模エンティティ解決のためのロバストで効率的なパイプライン
- Authors: Sandeepa Kannangara, Arman Abrahamyan, Daniel Elias, Thomas Kilby, Nadav Dar, Luiz Pizzato, Anna Leontjeva, Dan Jermyn,
- Abstract要約: 本稿では、エンタープライズレベルでの高ボリュームデータセットにおけるレコード重複とリンクの問題に対処するために設計された堅牢なパイプラインであるMERAIを紹介する。
私たちは、よく知られた2つのエンティティ解決ライブラリであるDedupeとSplinkと比較します。
MERAIは、エンタープライズレベルの大規模エンティティ解決のためのスケーラブルで信頼性の高いソリューションを提供し、実際のアプリケーションにおけるデータの整合性と一貫性を保証する。
- 参考スコア(独自算出の注目度): 0.40631409309544836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Entity resolution (ER) remains a significant challenge in data management, especially when dealing with large datasets. This paper introduces MERAI (Massive Entity Resolution using AI), a robust and efficient pipeline designed to address record deduplication and linkage issues in high-volume datasets at an enterprise level. The pipeline's resilience and accuracy have been validated through various large-scale record deduplication and linkage projects. To evaluate MERAI's performance, we compared it with two well-known entity resolution libraries, Dedupe and Splink. While Dedupe failed to scale beyond 2 million records due to memory constraints, MERAI successfully processed datasets of up to 15.7 million records and produced accurate results across all experiments. Experimental data demonstrates that MERAI outperforms both baseline systems in terms of matching accuracy, with consistently higher F1 scores in both deduplication and record linkage tasks. MERAI offers a scalable and reliable solution for enterprise-level large-scale entity resolution, ensuring data integrity and consistency in real-world applications.
- Abstract(参考訳): エンティティ解決(ER)は、特に大規模なデータセットを扱う場合、データ管理において重要な課題である。
本稿では,MERAI(Massive Entity Resolution using AI)について紹介する。
パイプラインのレジリエンスと精度は、様々な大規模レコード重複とリンクプロジェクトを通じて検証されている。
MERAIの性能を評価するために、よく知られた2つのエンティティ解決ライブラリであるDedupeとSplinkと比較した。
Dedupeはメモリ制限のために200万以上のレコードをスケールできなかったが、MERAIは最大1570万レコードのデータセットを処理し、すべての実験で正確な結果を得た。
実験データから、MERAIは両方のベースラインシステムにおいて、一致する精度で性能が向上し、デデューケーションとレコードリンケージの両タスクにおいて、F1スコアが一貫して高いことが示されている。
MERAIは、エンタープライズレベルの大規模エンティティ解決のためのスケーラブルで信頼性の高いソリューションを提供し、実際のアプリケーションにおけるデータの整合性と一貫性を保証する。
関連論文リスト
- Efficient Differentiable Causal Discovery via Reliable Super-Structure Learning [51.20606796019663]
本稿では,新たな因果発見パイプラインであるALVGLを提案する。
ALVGLはスパース分解とローランク分解を用いてデータの精度行列を学習する。
ALVGLは最先端の精度を達成するだけでなく、最適化効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2026-01-09T02:18:59Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - Relational Deep Dive: Error-Aware Queries Over Unstructured Data [9.0236658372663]
ReDD(Relational Deep Dive)は、クエリ固有のスキーマを動的に発見し、リレーショナルテーブルをポップアップさせ、証明可能な保証でエラー認識抽出を保証するフレームワークである。
主な貢献は、カバレッジ保証付きエラー検出の統計的校正手法であるSCAPEと、精度と人的補正コストのトレードオフを最適化するハイブリッドアプローチであるSCAPE-HYBである。
論文 参考訳(メタデータ) (2025-11-04T16:30:55Z) - Selecting and Combining Large Language Models for Scalable Code Clone Detection [0.0]
ソースコードクローンは、知的財産権侵害から意図しない脆弱性まで幅広いリスクを引き起こす。
本稿では,76大言語モデル(LLM)を特定し,大規模クローン検出に適した候補にフィルタリングする。
しかし、CodeT5+110M、CuBERT、SPTCodeはトップパフォーマンス者だった。
論文 参考訳(メタデータ) (2025-10-17T09:51:17Z) - Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution [0.0]
いくつかの重要な問題に対処するために設計されたスケーラブルなハイブリッドフレームワークを導入します。
事前学習された言語モデルを用いて、構造化された各データを対応するセマンティック埋め込みベクトルに符号化する。
意味論的に関連する候補のサブセットを検索した後、構文的検証段階を適用する。
論文 参考訳(メタデータ) (2025-09-22T08:05:44Z) - LMAR: Language Model Augmented Retriever for Domain-specific Knowledge Indexing [42.51773265892766]
Retrieval Augmented Generation (RAG) システムは、事前訓練された埋め込みの性能劣化のためにドメイン固有の知識に苦しむことが多い。
LLM誘導データ合成と対比埋め込み適応と効率的なテキストクラスタリングを組み合わせることで、これらの課題に対処するモデルに依存しないフレームワークであるLMAR(Language Model Augmented Retriever)を提案する。
論文 参考訳(メタデータ) (2025-08-04T16:59:43Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文 参考訳(メタデータ) (2025-07-13T11:41:44Z) - Multi-Modal Dataset Distillation in the Wild [75.64263877043615]
そこで我々は,マルチモーダル・データセット蒸留法(MDW)を提案し,ノイズの多いマルチモーダル・データセットをコンパクトなクリーン・データセットに蒸留し,効果的かつ効率的なモデルトレーニングを行う。
具体的には、MDWは蒸留中の学習可能な微粒な対応を導入し、蒸留されたデータを適応的に最適化し、対応識別領域を強調する。
MDWの理論的および経験的有効性は、様々な圧縮比で従来の手法を15%以上上回る、顕著なスケーラビリティで検証されている。
論文 参考訳(メタデータ) (2025-06-02T12:18:20Z) - Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。
本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。
フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文 参考訳(メタデータ) (2025-05-08T17:15:20Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - FedADMM: A Robust Federated Deep Learning Framework with Adaptivity to
System Heterogeneity [4.2059108111562935]
Federated Learning(FL)は、エッジデバイスによる大規模データの分散処理のための新興フレームワークである。
本稿では,FLAD FedADMMに基づく新しいプロトコルを提案する。
我々は,FedADMMが通信効率の点で,すべてのベースライン手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-07T15:58:33Z) - Efficient Ring-topology Decentralized Federated Learning with Deep
Generative Models for Industrial Artificial Intelligent [13.982904025739606]
深層生成モデル(dgms)のためのリングトポジ型分散連体学習方式を提案する。
我々のRDFLスキームは通信効率を向上し、目標IIoTタスクにおけるDGMを向上するための訓練性能を維持する。
さらに、通信効率とFLセキュリティをさらに向上するため、IPFS(InterPlanetary File System)を導入している。
論文 参考訳(メタデータ) (2021-04-15T08:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。