論文の概要: Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution
- arxiv url: http://arxiv.org/abs/2509.17470v1
- Date: Mon, 22 Sep 2025 08:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.282453
- Title: Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution
- Title(参考訳): Transformer-Gather, Fuzzy-Reconsider: エンティティ解決のためのスケーラブルなハイブリッドフレームワーク
- Authors: Mohammadreza Sharifi, Danial Ahmadzadeh,
- Abstract要約: いくつかの重要な問題に対処するために設計されたスケーラブルなハイブリッドフレームワークを導入します。
事前学習された言語モデルを用いて、構造化された各データを対応するセマンティック埋め込みベクトルに符号化する。
意味論的に関連する候補のサブセットを検索した後、構文的検証段階を適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Entity resolution plays a significant role in enterprise systems where data integrity must be rigorously maintained. Traditional methods often struggle with handling noisy data or semantic understanding, while modern methods suffer from computational costs or the excessive need for parallel computation. In this study, we introduce a scalable hybrid framework, which is designed to address several important problems, including scalability, noise robustness, and reliable results. We utilized a pre-trained language model to encode each structured data into corresponding semantic embedding vectors. Subsequently, after retrieving a semantically relevant subset of candidates, we apply a syntactic verification stage using fuzzy string matching techniques to refine classification on the unlabeled data. This approach was applied to a real-world entity resolution task, which exposed a linkage between a central user management database and numerous shared hosting server records. Compared to other methods, this approach exhibits an outstanding performance in terms of both processing time and robustness, making it a reliable solution for a server-side product. Crucially, this efficiency does not compromise results, as the system maintains a high retrieval recall of approximately 0.97. The scalability of the framework makes it deployable on standard CPU-based infrastructure, offering a practical and effective solution for enterprise-level data integrity auditing.
- Abstract(参考訳): エンティティの解決は、データの整合性を厳格に維持しなければならないエンタープライズシステムにおいて重要な役割を果たす。
従来の手法はノイズの多いデータやセマンティックな理解を扱うのに苦労することが多いが、現代の手法は計算コストや並列計算の過剰な必要性に悩まされている。
本研究では,スケーラビリティ,ノイズの堅牢性,信頼性など,いくつかの重要な問題に対処するスケーラブルなハイブリッドフレームワークを提案する。
我々は、事前学習された言語モデルを用いて、構造化された各データを対応する意味埋め込みベクターにエンコードした。
その後、候補のセマンティック関連部分集合を検索した後、ファジィ文字列マッチング技術を用いて構文検証ステージを適用し、ラベルなしデータの分類を洗練する。
このアプローチは、中央のユーザ管理データベースと多数の共有ホスティングサーバレコードとのリンクを公開する現実世界のエンティティ解決タスクに適用された。
他の手法と比較して、この手法は処理時間と堅牢性の両方において優れた性能を示しており、サーバサイド製品に対する信頼性の高いソリューションとなっている。
この効率性は、システムが約0.97の高い検索リコールを維持しているため、結果を損なうことはない。
フレームワークのスケーラビリティにより、標準的なCPUベースのインフラストラクチャにデプロイでき、エンタープライズレベルのデータ整合性監査のための実用的で効果的なソリューションを提供する。
関連論文リスト
- Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Online federated learning framework for classification [7.613977984287604]
分類のための新しいオンライン・フェデレーション・ラーニング・フレームワークを開発した。
データのプライバシと計算効率を確保しながら、複数のクライアントからのストリーミングデータを処理します。
提案手法は,従来の手法に比べて高い分類精度,計算効率の向上,データストレージ要求の大幅な削減を実現する。
論文 参考訳(メタデータ) (2025-03-19T13:50:19Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。