論文の概要: A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers
- arxiv url: http://arxiv.org/abs/2602.14855v1
- Date: Mon, 16 Feb 2026 15:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.49101
- Title: A Pragmatic Method for Comparing Clusterings with Overlaps and Outliers
- Title(参考訳): クラスタリングとオーバーラップとアウトリーチを比較するための実用的手法
- Authors: Ryan DeWolfe, Paweł Prałat, François Théberge,
- Abstract要約: 一般的な設定では、検出された真理クラスタリングと地上の真理クラスタリングは、外れ値(クラスターに属さないオブジェクト)、重なり合うクラスタ(複数のクラスタに属するオブジェクト)、あるいはその両方を持つ。
本稿では,クラスタリングを重なり合いや外れ値と比較するための実用的類似度尺度を定義し,いくつかの望ましい特性を持つことを示すとともに,他のクラスタリング比較尺度に係わるいくつかの共通のバイアスには属さないことを実験的に確認する。
- 参考スコア(独自算出の注目度): 0.7646713951724009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering algorithms are an essential part of the unsupervised data science ecosystem, and extrinsic evaluation of clustering algorithms requires a method for comparing the detected clustering to a ground truth clustering. In a general setting, the detected and ground truth clusterings may have outliers (objects belonging to no cluster), overlapping clusters (objects may belong to more than one cluster), or both, but methods for comparing these clusterings are currently undeveloped. In this note, we define a pragmatic similarity measure for comparing clusterings with overlaps and outliers, show that it has several desirable properties, and experimentally confirm that it is not subject to several common biases afflicting other clustering comparison measures.
- Abstract(参考訳): クラスタリングアルゴリズムは、教師なしデータサイエンスエコシステムの重要な部分であり、クラスタリングアルゴリズムの外部評価には、検出されたクラスタリングを地上の真実クラスタリングと比較する方法が必要である。
一般的な設定では、検出された真理クラスタリングと地上の真理クラスタリングは、外れ値(クラスターに属さないオブジェクト)、重なり合うクラスタ(複数のクラスタに属するオブジェクト)、あるいはその両方を持つが、これらのクラスタリングを比較する方法は現在未開発である。
本稿では,クラスタリングを重なり合いや外れ値と比較するための実用的類似度尺度を定義し,いくつかの望ましい特性を持つことを示すとともに,他のクラスタリング比較尺度に影響を及ぼす共通のバイアスがいくつか含まれていないことを実験的に確認する。
関連論文リスト
- Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。
本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文 参考訳(メタデータ) (2025-11-12T06:57:24Z) - A Computational Theory and Semi-Supervised Algorithm for Clustering [0.0]
クラスタリングは異常のないデータのグループ化の獲得である。
クラスタリング手法のカーネルは知覚異常検出アルゴリズムである。
半教師付きクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-12T09:15:58Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Clustering Ensemble Meets Low-rank Tensor Approximation [50.21581880045667]
本稿では,複数のクラスタリングを組み合わせ,個々のクラスタリングよりも優れたパフォーマンスを実現するクラスタリングアンサンブルの問題について検討する。
本稿では,この問題をグローバルな視点から解くために,新しい低ランクテンソル近似法を提案する。
7つのベンチマークデータセットを用いた実験の結果,提案手法は12の最先端手法と比較して,クラスタリング性能のブレークスルーを達成した。
論文 参考訳(メタデータ) (2020-12-16T13:01:37Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。
新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文 参考訳(メタデータ) (2020-02-14T00:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。