論文の概要: Graph-based Active Learning for Entity Cluster Repair
- arxiv url: http://arxiv.org/abs/2401.14992v1
- Date: Fri, 26 Jan 2024 16:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:41:22.321280
- Title: Graph-based Active Learning for Entity Cluster Repair
- Title(参考訳): エンティティクラスタ修復のためのグラフベースのアクティブラーニング
- Authors: Victor Christen, Daniel Obraczka, Marvin Hofer, Martin Franke, Erhard
Rahm
- Abstract要約: クラスタ修復手法は、クラスタ内のエラーを判定し、各クラスタが同一エンティティを表すレコードで構成されるように修正することを目的としている。
現在のクラスタ修復手法では、重複のないデータソースを前提としており、あるソースからのレコードは別のソースからのユニークなレコードに対応する。
近年,クラスタリング手法とリンク分類法を併用して,重複したデータソースに適用する手法が提案されている。
本稿では,クラスタ修復のための新しい手法を提案し,その基盤となる類似性グラフから得られるグラフメトリクスを利用する。
- 参考スコア(独自算出の注目度): 1.7453520331111723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cluster repair methods aim to determine errors in clusters and modify them so
that each cluster consists of records representing the same entity. Current
cluster repair methodologies primarily assume duplicate-free data sources,
where each record from one source corresponds to a unique record from another.
However, real-world data often deviates from this assumption due to quality
issues. Recent approaches apply clustering methods in combination with link
categorization methods so they can be applied to data sources with duplicates.
Nevertheless, the results do not show a clear picture since the quality highly
varies depending on the configuration and dataset. In this study, we introduce
a novel approach for cluster repair that utilizes graph metrics derived from
the underlying similarity graphs. These metrics are pivotal in constructing a
classification model to distinguish between correct and incorrect edges. To
address the challenge of limited training data, we integrate an active learning
mechanism tailored to cluster-specific attributes. The evaluation shows that
the method outperforms existing cluster repair methods without distinguishing
between duplicate-free or dirty data sources. Notably, our modified active
learning strategy exhibits enhanced performance when dealing with datasets
containing duplicates, showcasing its effectiveness in such scenarios.
- Abstract(参考訳): クラスタ修復手法は、クラスタ内のエラーを判定し、各クラスタが同じエンティティを表すレコードで構成されるように修正することを目的としている。
現在のクラスタ修復手法は、主に重複のないデータソースを前提としており、あるソースからのレコードは別のソースからのユニークなレコードに対応する。
しかし、現実世界のデータは品質の問題によってこの仮定から逸脱することが多い。
近年,クラスタリング手法とリンク分類法を併用して,重複したデータソースに適用する手法が提案されている。
それでも、構成やデータセットによって品質が大きく異なるため、明確な画像は示されていない。
本研究では,基礎となる類似度グラフから得られるグラフメトリクスを活用した,クラスタ修復のための新しい手法を提案する。
これらの指標は、正しいエッジと間違ったエッジを区別する分類モデルを構築する上で重要である。
限られたトレーニングデータの課題に対処するため,クラスタ固有の属性に合わせて,アクティブな学習機構を統合する。
本手法は, 重複のないデータソースと汚いデータソースを区別することなく, 既存のクラスタ修復方法より優れていることを示す。
特に、修正されたアクティブラーニング戦略では、重複を含むデータセットを扱う際の性能が向上し、そのようなシナリオでの有効性を示す。
関連論文リスト
- Categorical Data Clustering via Value Order Estimated Distance Metric Learning [31.851890008893847]
本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
本稿では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。
このアルゴリズムは収束保証によりより優れたクラスタリング精度を実現する。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Discriminative Anchor Learning for Efficient Multi-view Clustering [59.11406089896875]
マルチビュークラスタリング(DALMC)のための識別的アンカー学習を提案する。
元のデータセットに基づいて、識別的なビュー固有の特徴表現を学習する。
これらの表現に基づいて異なるビューからアンカーを構築することで、共有アンカーグラフの品質が向上します。
論文 参考訳(メタデータ) (2024-09-25T13:11:17Z) - Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - AugDMC: Data Augmentation Guided Deep Multiple Clustering [2.479720095773358]
AugDMCは、Deep Multiple Clustering法による新しいデータ拡張ガイドである。
データ拡張を利用して、データの特定の側面に関連する機能を自動的に抽出する。
異なる拡張から不安定な問題を緩和するために、安定な最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-06-22T16:31:46Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。