論文の概要: Graph-based hierarchical record clustering for unsupervised entity
resolution
- arxiv url: http://arxiv.org/abs/2112.06331v1
- Date: Sun, 12 Dec 2021 21:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 07:01:11.778210
- Title: Graph-based hierarchical record clustering for unsupervised entity
resolution
- Title(参考訳): 教師なしエンティティ解決のためのグラフベース階層型レコードクラスタリング
- Authors: Islam Akef Ebeid, John R. Talburt, Md Abdus Salam Siddique
- Abstract要約: 我々はData Washing Machine (DWM)という最先端の確率的フレームワークを構築している。
グラフベースの階層型2ステップレコードクラスタリング手法(GDWM)を導入し,マッチングしたレコードペアにおいて,まず大きな,接続されたコンポーネントやソフトクラスタを識別する。
その後、発見されたソフトクラスタを階層的な方法でより正確なエンティティクラスタに分割する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Here we study the problem of matched record clustering in unsupervised entity
resolution. We build upon a state-of-the-art probabilistic framework named the
Data Washing Machine (DWM). We introduce a graph-based hierarchical 2-step
record clustering method (GDWM) that first identifies large, connected
components or, as we call them, soft clusters in the matched record pairs using
a graph-based transitive closure algorithm utilized in the DWM. That is
followed by breaking down the discovered soft clusters into more precise entity
clusters in a hierarchical manner using an adapted graph-based modularity
optimization method. Our approach provides several advantages over the original
implementation of the DWM, mainly a significant speed-up, increased precision,
and overall increased F1 scores. We demonstrate the efficacy of our approach
using experiments on multiple synthetic datasets. Our results also provide
evidence of the utility of graph theory-based algorithms despite their sparsity
in the literature on unsupervised entity resolution.
- Abstract(参考訳): 本稿では,教師なしエンティティ解決におけるマッチングレコードクラスタリングの問題について検討する。
我々はData Washing Machine (DWM)という最先端の確率的フレームワークを構築した。
本稿では,グラフベースの階層型階層型2段階記録クラスタリング(gdwm)を提案する。この手法は,まず大規模で接続されたコンポーネントを識別するか,あるいはdwmで使用されるグラフベースの推移的クロージャアルゴリズムを用いて,マッチングレコードペア内のソフトクラスタを識別する。
その後、発見されたソフトクラスタをより正確なエンティティクラスタに階層的に分割し、グラフベースのモジュラリティ最適化手法を採用する。
提案手法はDWMの当初の実装に対していくつかの利点があり、主に大幅な高速化、精度の向上、F1スコアの全体的な増加などである。
複数の合成データセットを用いた実験により,本手法の有効性を示す。
また, 教師なし実体分解能に関する文献において, グラフ理論に基づくアルゴリズムの有用性の証明も行った。
関連論文リスト
- Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - A Clustering Method with Graph Maximum Decoding Information [6.11503045313947]
本稿では,CMDIと呼ばれるグラフベースモデルにおけるデコード情報の最大化のための新しいクラスタリング手法を提案する。
CMDIは2次元構造情報理論を、グラフ構造抽出とグラフ分割という2つのフェーズからなるクラスタリングプロセスに組み込んでいる。
3つの実世界のデータセットに対する実証的な評価は、CMDIが古典的ベースライン法より優れており、より優れた復号化情報比(DI-R)を示すことを示している。
これらの結果から,デコード情報の品質と計算効率を向上させるCMDIの有効性が示され,グラフベースのクラスタリング解析において有用なツールとして位置づけられた。
論文 参考訳(メタデータ) (2024-03-18T05:18:19Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - One-step Bipartite Graph Cut: A Normalized Formulation and Its
Application to Scalable Subspace Clustering [56.81492360414741]
両部グラフの1ステップ正規化カットを、特に線形時間複雑性で実施する方法を示す。
本稿では、まず、正規化制約付き一段階二分グラフカット基準を特徴付けるとともに、そのトレース問題に対する等価性を理論的に証明する。
このカット基準を、適応アンカー学習、二部グラフ学習、一段階正規化二部グラフ分割を同時にモデル化するスケーラブルなサブスペースクラスタリングアプローチに拡張する。
論文 参考訳(メタデータ) (2023-05-12T11:27:20Z) - Dual Contrastive Attributed Graph Clustering Network [6.796682703663566]
我々はDCAGC(Dual Contrastive Attributed Graph Clustering Network)と呼ばれる汎用フレームワークを提案する。
DCAGCでは、近隣のコントラストモジュールを利用することで、近隣ノードの類似性を最大化し、ノード表現の品質を向上させる。
DCAGCのすべてのモジュールは、統一されたフレームワークでトレーニングされ、最適化されているため、学習されたノード表現にはクラスタリング指向のメッセージが含まれている。
論文 参考訳(メタデータ) (2022-06-16T03:17:01Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Deep Graph Clustering via Dual Correlation Reduction [37.973072977988494]
本稿では,Dual correlation Reduction Network (DCRN) と呼ばれる自己教師型ディープグラフクラスタリング手法を提案する。
提案手法では,まず,サンプルを符号化するシアムネットワークを設計する。次に,クロスビューサンプル相関行列とクロスビュー特徴相関行列をそれぞれ2つのアイデンティティ行列に近似させることで,二重レベルの情報相関を小さくする。
本稿では,GCNの過度なスムース化による表現の崩壊を軽減するために,ネットワークが長距離情報を得るための伝搬正則化項を導入する。
論文 参考訳(メタデータ) (2021-12-29T04:05:38Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - Effective and Efficient Graph Learning for Multi-view Clustering [173.8313827799077]
マルチビュークラスタリングのための効率的かつ効率的なグラフ学習モデルを提案する。
本手法はテンソルシャッテンp-ノルムの最小化により異なるビューのグラフ間のビュー類似性を利用する。
提案アルゴリズムは時間経済であり,安定した結果を得るとともに,データサイズによく対応している。
論文 参考訳(メタデータ) (2021-08-15T13:14:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。