論文の概要: A Robust and Efficient Pipeline for Enterprise-Level Large-Scale Entity Resolution
- arxiv url: http://arxiv.org/abs/2508.03767v1
- Date: Tue, 05 Aug 2025 02:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.380232
- Title: A Robust and Efficient Pipeline for Enterprise-Level Large-Scale Entity Resolution
- Title(参考訳): エンタープライズレベルの大規模エンティティ解決のためのロバストで効率的なパイプライン
- Authors: Sandeepa Kannangara, Arman Abrahamyan, Daniel Elias, Thomas Kilby, Nadav Dar, Luiz Pizzato, Anna Leontjeva, Dan Jermyn,
- Abstract要約: 本稿では、エンタープライズレベルでの高ボリュームデータセットにおけるレコード重複とリンクの問題に対処するために設計された堅牢なパイプラインであるMERAIを紹介する。
私たちは、よく知られた2つのエンティティ解決ライブラリであるDedupeとSplinkと比較します。
MERAIは、エンタープライズレベルの大規模エンティティ解決のためのスケーラブルで信頼性の高いソリューションを提供し、実際のアプリケーションにおけるデータの整合性と一貫性を保証する。
- 参考スコア(独自算出の注目度): 0.40631409309544836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Entity resolution (ER) remains a significant challenge in data management, especially when dealing with large datasets. This paper introduces MERAI (Massive Entity Resolution using AI), a robust and efficient pipeline designed to address record deduplication and linkage issues in high-volume datasets at an enterprise level. The pipeline's resilience and accuracy have been validated through various large-scale record deduplication and linkage projects. To evaluate MERAI's performance, we compared it with two well-known entity resolution libraries, Dedupe and Splink. While Dedupe failed to scale beyond 2 million records due to memory constraints, MERAI successfully processed datasets of up to 15.7 million records and produced accurate results across all experiments. Experimental data demonstrates that MERAI outperforms both baseline systems in terms of matching accuracy, with consistently higher F1 scores in both deduplication and record linkage tasks. MERAI offers a scalable and reliable solution for enterprise-level large-scale entity resolution, ensuring data integrity and consistency in real-world applications.
- Abstract(参考訳): エンティティ解決(ER)は、特に大規模なデータセットを扱う場合、データ管理において重要な課題である。
本稿では,MERAI(Massive Entity Resolution using AI)について紹介する。
パイプラインのレジリエンスと精度は、様々な大規模レコード重複とリンクプロジェクトを通じて検証されている。
MERAIの性能を評価するために、よく知られた2つのエンティティ解決ライブラリであるDedupeとSplinkと比較した。
Dedupeはメモリ制限のために200万以上のレコードをスケールできなかったが、MERAIは最大1570万レコードのデータセットを処理し、すべての実験で正確な結果を得た。
実験データから、MERAIは両方のベースラインシステムにおいて、一致する精度で性能が向上し、デデューケーションとレコードリンケージの両タスクにおいて、F1スコアが一貫して高いことが示されている。
MERAIは、エンタープライズレベルの大規模エンティティ解決のためのスケーラブルで信頼性の高いソリューションを提供し、実際のアプリケーションにおけるデータの整合性と一貫性を保証する。
関連論文リスト
- eSapiens: A Platform for Secure and Auditable Retrieval-Augmented Generation [10.667949307405983]
eSapiensはAI(AI)プラットフォームで、ビジネス指向のトリフェクタ(プロプライエタリなデータ、運用、主要な言語モデル(LLM))を中心に開発されている。
eSapiensは、企業がAI資産を完全にコントロールし、AI知識の保持とデータセキュリティのためのすべてを社内に保持する。
論文 参考訳(メタデータ) (2025-07-13T11:41:44Z) - Multi-Modal Dataset Distillation in the Wild [75.64263877043615]
そこで我々は,マルチモーダル・データセット蒸留法(MDW)を提案し,ノイズの多いマルチモーダル・データセットをコンパクトなクリーン・データセットに蒸留し,効果的かつ効率的なモデルトレーニングを行う。
具体的には、MDWは蒸留中の学習可能な微粒な対応を導入し、蒸留されたデータを適応的に最適化し、対応識別領域を強調する。
MDWの理論的および経験的有効性は、様々な圧縮比で従来の手法を15%以上上回る、顕著なスケーラビリティで検証されている。
論文 参考訳(メタデータ) (2025-06-02T12:18:20Z) - Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Ultra-FineWeb: Efficient Data Filtering and Verification for High-Quality LLM Training Data [43.539306138403695]
LLMトレーニングにおけるデータの影響を迅速に評価できる効率的な検証戦略を提案する。
本稿では,効率的なデータフィルタリングパイプラインを提案し,フィルタ効率を向上し,実験と推論のコストを削減する。
フィルタリングパイプラインを、広く使われている2つの事前学習コーパス、FinWebと中国のFinWebデータセットに適用することに成功しました。
論文 参考訳(メタデータ) (2025-05-08T17:15:20Z) - Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Filling the Missing: Exploring Generative AI for Enhanced Federated
Learning over Heterogeneous Mobile Edge Devices [72.61177465035031]
ローカルデータのFIMI(FIlling the MIssing)部分を活用することにより,これらの課題に対処する,AIを活用した創発的なフェデレーション学習を提案する。
実験の結果,FIMIはデバイス側エネルギーの最大50%を節約し,目標とするグローバルテスト精度を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:07:04Z) - FedADMM: A Robust Federated Deep Learning Framework with Adaptivity to
System Heterogeneity [4.2059108111562935]
Federated Learning(FL)は、エッジデバイスによる大規模データの分散処理のための新興フレームワークである。
本稿では,FLAD FedADMMに基づく新しいプロトコルを提案する。
我々は,FedADMMが通信効率の点で,すべてのベースライン手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-07T15:58:33Z) - Efficient Ring-topology Decentralized Federated Learning with Deep
Generative Models for Industrial Artificial Intelligent [13.982904025739606]
深層生成モデル(dgms)のためのリングトポジ型分散連体学習方式を提案する。
我々のRDFLスキームは通信効率を向上し、目標IIoTタスクにおけるDGMを向上するための訓練性能を維持する。
さらに、通信効率とFLセキュリティをさらに向上するため、IPFS(InterPlanetary File System)を導入している。
論文 参考訳(メタデータ) (2021-04-15T08:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。