論文の概要: Adaptive Graph Refinement and Label Propagation with LLMs for Cost-Effective Entity Resolution
- arxiv url: http://arxiv.org/abs/2605.25814v1
- Date: Mon, 25 May 2026 13:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.126451
- Title: Adaptive Graph Refinement and Label Propagation with LLMs for Cost-Effective Entity Resolution
- Title(参考訳): コスト効果エンティティ分解のためのLLMを用いた適応グラフ再構成とラベル伝搬
- Authors: Hongtao Wang, Renchi Yang, Haoran Zheng, Xiangyu Ke,
- Abstract要約: ダーティエンティティ解決(ER)は、1つの散らかったデータセットから同じ現実世界のエンティティを参照するレコードを識別する。
マッチングとクラスタリングのステップを反復的確率的ラベル伝搬プロセスに統合する統合フレームワークであるAlperを提案する。
8つのベンチマークデータセットに対する我々の実験は、Alperが最先端のカスケードパイプラインよりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 16.32872612569802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dirty entity resolution (ER), which identifies records referring to the same real-world entity from a single, messy dataset, is a fundamental task in data management and mining. However, the dominant blocking-matching-clustering paradigm for ER suffers from critical flaws. Its cascaded, decoupled workflow essentially produces a static, sparse graph plagued by missing edges (due to blocking failures) and noisy links (due to matching errors), causing error propagation and yielding suboptimal clusters, particularly when rigid transitivity is imposed in the clustering. We contend that matching and clustering are fundamentally synergistic, both optimizing for the construction of an ideal entity graph. Building upon this insight, we propose Alper, a unified framework that integrates these steps into an iterative probabilistic label propagation process over a global, evolving graph. Unlike disjoint blocking, Alper refines the graph structure and labels dynamically by adaptively integrating "weak but cheap" signals from graph propagation with "strong but expensive" LLM-based pairwise queries. For higher cost-effectiveness, we formulate the signal selection as a constrained optimization problem maximizing cumulative marginal gain under a query budget, solved via our greedy algorithm with provable theoretical guarantees. Our extensive experiments over eight benchmark datasets demonstrate that Alper is consistently superior to state-of-the-art cascaded pipelines.
- Abstract(参考訳): 単一の散らかったデータセットから同じ現実世界のエンティティを参照するレコードを識別するDirty entity resolution (ER)は、データ管理とマイニングの基本的なタスクである。
しかし、ERのブロッキング・マッチング・クラスタリングのパラダイムは重大な欠陥に悩まされている。
そのカスケード化された分離されたワークフローは、本質的には、(障害のブロックによる)エッジの欠如と(一致したエラーによる)ノイズの多いリンクに悩まされ、特にクラスタリングに厳格な推移性が課された場合、エラーの伝播と準最適クラスタを生み出す。
マッチングとクラスタリングは基本的に相乗的であり、どちらも理想的な実体グラフの構築を最適化する。
この知見に基づいて、グローバルで進化するグラフ上での反復確率的ラベル伝搬プロセスにこれらのステップを統合する統一的なフレームワークであるAlperを提案する。
解離ブロックとは異なり、Alperはグラフの伝播から「弱いが安い」信号と「強いが高価な」LLMベースのペアワイズクエリを適応的に統合することで、グラフ構造とラベルを動的に洗練する。
より高いコスト効率を実現するために,我々は,提案アルゴリズムを用いて理論的保証を証明可能な方法で解いた,クエリ予算下での累積限界ゲインを最大化する制約付き最適化問題として信号選択を定式化する。
8つのベンチマークデータセットに対する大規模な実験は、Alperが最先端のカスケードパイプラインよりも一貫して優れていることを示している。
関連論文リスト
- FedCIGAR: A Personalized Reconstruction Approach for Federated Graph-level Anomaly Detection [51.473064583839296]
クラスタ適応型GAted Reconstruction (FedCIGAR) を用いた新しいフェデレーショングラフレベルの異常検出手法を提案する。
具体的には、合成データを避けるために、正規グラフに基づいて訓練された再構成に基づくパラダイムを設計し、さらに、クライアント側ノードコントリビューションゲーティング機構とサーバ側スライディングウィンドウベースのクラスタリング戦略を導入し、データの不均一性に対処する。
論文 参考訳(メタデータ) (2026-05-10T09:03:54Z) - HELP: HyperNode Expansion and Logical Path-Guided Evidence Localization for Accurate and Efficient GraphRAG [53.30561659838455]
大きな言語モデル(LLM)は、しばしば固有の知識境界と幻覚に苦しむ。
Retrieval-Augmented Generation (RAG) は、マルチホップ推論に不可欠な構造的相互依存性をしばしば見落としている。
ヘルプは、複数の単純でマルチホップなQAベンチマークで競合性能を達成し、グラフベースのRAGベースラインよりも28.8$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-02-24T14:05:29Z) - Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - Youtu-GraphRAG: Vertically Unified Agents for Graph Retrieval-Augmented Complex Reasoning [32.78218766121055]
グラフ検索拡張生成(GraphRAG)は,複雑な推論において,大規模言語モデルを効果的に拡張した。
本稿では,フレームワーク全体を複雑な統合として結合する,垂直に統一されたエージェントパラダイムYoutu-GraphRAGを提案する。
論文 参考訳(メタデータ) (2025-08-27T13:13:20Z) - Exact and Heuristic Algorithms for Constrained Biclustering [0.0]
コクラスタリング(co-clustering)または双方向クラスタリング( two-way clustering)とも呼ばれるビクラスタリングは、データマトリックスの行と列を同時にパーティショニングすることで、コヒーレントパターンによるサブマトリクスを明らかにする。
我々は、オブジェクトが同一または異なるビクラスタに属するべきか否かを規定する制約付きビクラスタリング、すなわち、マスタリンクとナントリンクの制約について研究する。
論文 参考訳(メタデータ) (2025-08-07T15:29:22Z) - Graph Structure Refinement with Energy-based Contrastive Learning [56.957793274727514]
グラフの構造と表現を学習するための生成訓練と識別訓練のジョイントに基づく教師なし手法を提案する。
本稿では,ECL-GSR(Energy-based Contrastive Learning)によるグラフ構造再構成(GSR)フレームワークを提案する。
ECL-GSRは、主要なベースラインに対するサンプルやメモリの少ない高速なトレーニングを実現し、下流タスクの単純さと効率性を強調している。
論文 参考訳(メタデータ) (2024-12-20T04:05:09Z) - Modularity aided consistent attributed graph clustering via coarsening [6.522020196906943]
グラフクラスタリングは、属性付きグラフを分割し、コミュニティを検出するための重要な教師なし学習手法である。
本稿では,ブロックの最大化最小化手法を用いて,対数行列,滑らか性,モジュラリティを組み込んだ損失関数を提案する。
我々のアルゴリズムはグラフニューラルネットワーク(GNN)と変分グラフオートエンコーダ(VGAE)をシームレスに統合し、拡張ノードの特徴を学習し、例外的なクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2024-07-09T10:42:19Z) - Graph-based hierarchical record clustering for unsupervised entity
resolution [0.0]
我々はData Washing Machine (DWM)という最先端の確率的フレームワークを構築している。
グラフベースの階層型2ステップレコードクラスタリング手法(GDWM)を導入し,マッチングしたレコードペアにおいて,まず大きな,接続されたコンポーネントやソフトクラスタを識別する。
その後、発見されたソフトクラスタを階層的な方法でより正確なエンティティクラスタに分割する。
論文 参考訳(メタデータ) (2021-12-12T21:58:07Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。