論文の概要: Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution
- arxiv url: http://arxiv.org/abs/2509.17470v2
- Date: Fri, 24 Oct 2025 17:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.147742
- Title: Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Resolution
- Title(参考訳): Transformer-Gather, Fuzzy-Reconsider: エンティティ解決のためのスケーラブルなハイブリッドフレームワーク
- Authors: Mohammadreza Sharifi, Danial Ahmadzadeh,
- Abstract要約: いくつかの重要な問題に対処するために設計されたスケーラブルなハイブリッドフレームワークを導入します。
事前学習された言語モデルを用いて、構造化された各データを対応するセマンティック埋め込みベクトルに符号化する。
意味論的に関連する候補のサブセットを検索した後、構文的検証段階を適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Entity resolution plays a significant role in enterprise systems where data integrity must be rigorously maintained. Traditional methods often struggle with handling noisy data or semantic understanding, while modern methods suffer from computational costs or the excessive need for parallel computation. In this study, we introduce a scalable hybrid framework, which is designed to address several important problems, including scalability, noise robustness, and reliable results. We utilized a pre-trained language model to encode each structured data into corresponding semantic embedding vectors. Subsequently, after retrieving a semantically relevant subset of candidates, we apply a syntactic verification stage using fuzzy string matching techniques to refine classification on the unlabeled data. This approach was applied to a real-world entity resolution task, which exposed a linkage between a central user management database and numerous shared hosting server records. Compared to other methods, this approach exhibits an outstanding performance in terms of both processing time and robustness, making it a reliable solution for a server-side product. Crucially, this efficiency does not compromise results, as the system maintains a high retrieval recall of approximately 0.97. The scalability of the framework makes it deployable on standard CPU-based infrastructure, offering a practical and effective solution for enterprise-level data integrity auditing.
- Abstract(参考訳): エンティティの解決は、データの整合性を厳格に維持しなければならないエンタープライズシステムにおいて重要な役割を果たす。
従来の手法はノイズの多いデータやセマンティックな理解を扱うのに苦労することが多いが、現代の手法は計算コストや並列計算の過剰な必要性に悩まされている。
本研究では,スケーラビリティ,ノイズの堅牢性,信頼性など,いくつかの重要な問題に対処するスケーラブルなハイブリッドフレームワークを提案する。
我々は、事前学習された言語モデルを用いて、構造化された各データを対応する意味埋め込みベクターにエンコードした。
その後、候補のセマンティック関連部分集合を検索した後、ファジィ文字列マッチング技術を用いて構文検証ステージを適用し、ラベルなしデータの分類を洗練する。
このアプローチは、中央のユーザ管理データベースと多数の共有ホスティングサーバレコードとのリンクを公開する現実世界のエンティティ解決タスクに適用された。
他の手法と比較して、この手法は処理時間と堅牢性の両方において優れた性能を示しており、サーバサイド製品に対する信頼性の高いソリューションとなっている。
この効率性は、システムが約0.97の高い検索リコールを維持しているため、結果を損なうことはない。
フレームワークのスケーラビリティにより、標準的なCPUベースのインフラストラクチャにデプロイでき、エンタープライズレベルのデータ整合性監査のための実用的で効果的なソリューションを提供する。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Query as Anchor: Scenario-Adaptive User Representation via Large Language Model [28.30329175937291]
静的エンコーディングから動的クエリ認識合成へユーザモデリングをシフトするフレームワークであるQuery-as-Anchorを提案する。
まず,産業規模の事前学習データセットであるUserUを構築し,行動系列とユーザ理解のセマンティクスを整合させる。
クラスタベースのSoft Prompt Tuningを導入し、識別潜在構造を強制する。
デプロイメントでは、シーケンスターミニでのクエリのアンカーにより、無視可能なインクリメンタルレイテンシでKVキャッシュを加速する推論が可能になる。
論文 参考訳(メタデータ) (2026-02-16T06:09:31Z) - CREAM: Continual Retrieval on Dynamic Streaming Corpora with Adaptive Soft Memory [19.64051996386645]
CREAMは、メモリベースの連続検索のための自己教師型フレームワークである。
教師なしの環境では、目に見えないトピックと見えないトピックの両方に適応します。
2つのベンチマークデータセットの実験は、CREAMが優れた適応性と精度を示すことを示した。
論文 参考訳(メタデータ) (2026-01-06T04:47:49Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - A Simple and Effective Framework for Symmetric Consistent Indexing in Large-Scale Dense Retrieval [11.72564658353791]
大規模情報検索システムでは,高効率・競争精度のため,高密度検索が業界標準となっている。
広く採用されているデュアルトウワー符号化アーキテクチャは、主に表現空間のミスアライメントと検索インデックスの不整合という、固有の課題を導入している。
本稿では2つの相乗的モジュールからなるシンプルで効果的なSCIフレームワークを提案する。
提案手法の有効性は,公開データセットと実世界のeコマースデータセットにまたがる結果によって検証され,理論的に保証される。
論文 参考訳(メタデータ) (2025-12-15T08:11:24Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Tree-Based Text Retrieval via Hierarchical Clustering in RAGFrameworks: Application on Taiwanese Regulations [0.0]
階層的なクラスタリングに基づく検索手法を提案する。
本手法は,意味的関連コンテンツを適応的に選択しながら,システム応答の精度と関連性を維持する。
我々のフレームワークは実装が簡単で、既存のRAGパイプラインと簡単に統合できます。
論文 参考訳(メタデータ) (2025-06-16T15:34:29Z) - Online federated learning framework for classification [7.613977984287604]
分類のための新しいオンライン・フェデレーション・ラーニング・フレームワークを開発した。
データのプライバシと計算効率を確保しながら、複数のクライアントからのストリーミングデータを処理します。
提案手法は,従来の手法に比べて高い分類精度,計算効率の向上,データストレージ要求の大幅な削減を実現する。
論文 参考訳(メタデータ) (2025-03-19T13:50:19Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - Revisiting Mahalanobis Distance for Transformer-Based Out-of-Domain
Detection [60.88952532574564]
本稿では,ドメイン外インテント検出手法を徹底的に比較する。
意図分類のための3つの標準データセット上で,複数のコンテキストエンコーダとメソッドを効率良く評価する。
本研究の主目的は,超微調整トランスフォーマーを用いたドメイン内データエンコーダが優れた結果をもたらすことである。
論文 参考訳(メタデータ) (2021-01-11T09:10:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。