論文の概要: Decomposing the Jaccard Distance and the Jaccard Index in ABCDE
- arxiv url: http://arxiv.org/abs/2409.18522v1
- Date: Fri, 27 Sep 2024 08:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:58:06.543453
- Title: Decomposing the Jaccard Distance and the Jaccard Index in ABCDE
- Title(参考訳): ABCDEにおけるジャカード距離とジャカード指数の分解
- Authors: Stephan van Staden,
- Abstract要約: 本稿では、JaccardDistanceとJaccardIndexをさらに分解する。
いずれの場合も、分解によって影響と品質の指標が得られます。
新しい測度は数学的によく理解されており、単純な方程式を通して相互に関連している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: ABCDE is a sophisticated technique for evaluating differences between very large clusterings. Its main metric that characterizes the magnitude of the difference between two clusterings is the JaccardDistance, which is a true distance metric in the space of all clusterings of a fixed set of (weighted) items. The JaccardIndex is the complementary metric that characterizes the similarity of two clusterings. Its relationship with the JaccardDistance is simple: JaccardDistance + JaccardIndex = 1. This paper decomposes the JaccardDistance and the JaccardIndex further. In each case, the decomposition yields Impact and Quality metrics. The Impact metrics measure aspects of the magnitude of the clustering diff, while Quality metrics use human judgements to measure how much the clustering diff improves the quality of the clustering. The decompositions of this paper offer more and deeper insight into a clustering change. They also unlock new techniques for debugging and exploring the nature of the clustering diff. The new metrics are mathematically well-behaved and they are interrelated via simple equations. While the work can be seen as an alternative formal framework for ABCDE, we prefer to view it as complementary. It certainly offers a different perspective on the magnitude and the quality of a clustering change, and users can use whatever they want from each approach to gain more insight into a change.
- Abstract(参考訳): ABCDEは、非常に大規模なクラスタリングの違いを評価するための高度な技術である。
2つのクラスタリングの差の大きさを特徴づける主要な計量はジャカルド距離であり、これは固定された(重み付けされた)アイテムの全てのクラスタリングの空間における真の距離計量である。
JaccardIndexは2つのクラスタリングの類似性を特徴付ける補完的なメトリックである。
JaccardDistance + JaccardIndex = 1。
本稿では、JaccardDistanceとJaccardIndexをさらに分解する。
いずれの場合も、分解によって影響と品質の指標が得られます。
インパクトメトリクスはクラスタリング差の大きさの側面を計測し、品質メトリクスはクラスタリング差がクラスタリングの質をどれだけ改善するかを測定するために人間の判断を使用する。
この論文の分解により、クラスタリングの変更についてより深い洞察が得られます。
また、クラスタリング差分の性質をデバッグし、探索するための新しいテクニックをアンロックする。
新しい測度は数学的によく理解されており、単純な方程式を通して相互に関連している。
この研究はABCDEの代替の形式的枠組みと見なすことができるが、我々はそれを補完的なものと見なすのが好ましい。
クラスタリングの変更の規模と品質について,さまざまな視点を提供することは間違いありません。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Deep Fair Clustering via Maximizing and Minimizing Mutual Information:
Theory, Algorithm and Metric [28.40833362941683]
我々は,深層クラスタリングのための相互情報理論を開発し,FCMIと呼ばれる新しいアルゴリズムを設計する。
FCMIは、深い公正クラスタリング、例えば、コンパクトでバランスの取れた、公平なクラスタ、および情報的特徴によって期待される4つの特徴を達成するように設計されている。
既存の評価指標とは異なり、我々の測定基準はクラスタリングの品質と公平さを個別の方法ではなく全体として測定します。
論文 参考訳(メタデータ) (2022-09-26T03:38:48Z) - Normalised clustering accuracy: An asymmetric external cluster validity measure [2.900810893770134]
クラスタリングアルゴリズムは、伝統的に内部または外部の妥当性尺度を用いて評価される。
本稿では、一般的に使われている古典的分割類似度スコアは、いくつかの望ましい性質を欠いていると論じる。
我々は,最適セットマッチング精度のバージョンである新しい尺度を提案し,分析する。
論文 参考訳(メタデータ) (2022-09-07T05:08:34Z) - J-Score: A Robust Measure of Clustering Accuracy [8.33909555155795]
クラスタリング分析は、データセットに隠された構造を発見し、それらを非結合クラスタに分割する。
現在のクラスタリング精度測定には、未整合クラスタを見渡すこと、過剰なクラスタへのバイアス、不安定なベースライン、難解な解釈が含まれる。
これらの問題に対処する新しい精度尺度 J-score を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:43:52Z) - Exact and Approximate Hierarchical Clustering Using A* [51.187990314731344]
クラスタリングのA*探索に基づく新しいアプローチを紹介します。
A*と新しいエンフォレリスデータ構造を組み合わせることで、禁止的に大きな検索空間を克服します。
実験により,本手法は粒子物理利用事例や他のクラスタリングベンチマークにおいて,ベースラインよりもかなり高品質な結果が得られることを示した。
論文 参考訳(メタデータ) (2021-04-14T18:15:27Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Spectral Clustering with Smooth Tiny Clusters [14.483043753721256]
本稿では,データのスムーズさを初めて考慮した新しいクラスタリングアルゴリズムを提案する。
私たちのキーとなるアイデアは、スムーズなグラフを構成する小さなクラスタをクラスタ化することです。
本稿では,マルチスケールな状況に着目するが,データのスムーズさの考え方はどのクラスタリングアルゴリズムにも確実に拡張できる。
論文 参考訳(メタデータ) (2020-09-10T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。