論文の概要: Evaluation of Cluster Id Assignment Schemes with ABCDE
- arxiv url: http://arxiv.org/abs/2409.18254v1
- Date: Thu, 26 Sep 2024 19:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:58:00.565346
- Title: Evaluation of Cluster Id Assignment Schemes with ABCDE
- Title(参考訳): ABCDEを用いたクラスタId割り当て方式の評価
- Authors: Stephan van Staden,
- Abstract要約: クラスタID割り当てスキームは、クラスタリングの各クラスタを別個のIDでラベル付けする。
セマンティックIDの安定性により、クラスタリングのユーザは、クラスタリング/時間にわたって安定したIDを持つコンセプトのクラスタを参照することができる。
本稿では,ID代入方式の相対的メリットを評価することの課題について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A cluster id assignment scheme labels each cluster of a clustering with a distinct id. The goal of id assignment is semantic id stability, which means that, whenever possible, a cluster for the same underlying concept as that of a historical cluster should ideally receive the same id as the historical cluster. Semantic id stability allows the users of a clustering to refer to a concept's cluster with an id that is stable across clusterings/time. This paper treats the problem of evaluating the relative merits of id assignment schemes. In particular, it considers a historical clustering with id assignments, and a new clustering with ids assigned by a baseline and an experiment. It produces metrics that characterize both the magnitude and the quality of the id assignment diffs between the baseline and the experiment. That happens by transforming the problem of cluster id assignment into a problem of cluster membership, and evaluating it with ABCDE. ABCDE is a sophisticated and scalable technique for evaluating differences in cluster membership in real-world applications, where billions of items are grouped into millions of clusters, and some items are more important than others. The paper also describes several generalizations to the basic evaluation setup for id assignment schemes. For example, it is fairly straightforward to evaluate changes that simultaneously mutate cluster memberships and cluster ids. The ideas are generously illustrated with examples.
- Abstract(参考訳): クラスタID割り当てスキームは、クラスタリングの各クラスタを別個のIDでラベル付けする。
idの割り当ての目標はセマンティックIDの安定性であり、可能な限り、歴史的クラスタと同じ概念のクラスタが、歴史的クラスタと同じIDを理想的に受け取るべきであることを意味する。
セマンティックIDの安定性により、クラスタリングのユーザは、クラスタリング/時間にわたって安定したIDを持つコンセプトのクラスタを参照することができる。
本稿では,ID代入方式の相対的メリットを評価することの課題について論じる。
特に、ID割り当てを伴う履歴クラスタリングと、ベースラインと実験によって割り当てられたIDを備えた新しいクラスタリングを考える。
ベースラインと実験の間のID割り当て差の大きさと品質の両方を特徴付けるメトリクスを生成する。
これは、クラスタID割り当ての問題をクラスタメンバシップの問題に変換し、ABCDEで評価することで起こります。
ABCDEは、数十億のアイテムが数百万のクラスタにグループ化され、いくつかのアイテムは他のものよりも重要になる、現実世界のアプリケーションにおけるクラスタメンバシップの違いを評価するための、洗練されたスケーラブルなテクニックである。
また、ID割り当て方式の基本評価設定へのいくつかの一般化についても述べる。
例えば、クラスタメンバシップとクラスタIDを同時に変更する変更を評価することは、かなり簡単です。
その考えは例によって寛大に説明されている。
関連論文リスト
- Dying Clusters Is All You Need -- Deep Clustering With an Unknown Number of Clusters [5.507296054825372]
高次元データで有意義なグループを見つけることは、データマイニングにおいて重要な課題である。
深層クラスタリング手法はこれらの課題において顕著な成果を上げている。
これらのメソッドの多くは、事前にクラスタの数を指定する必要がある。
これは、ラベル付きデータが利用できない場合、クラスタの数は通常不明であるため、大きな制限となる。
これらのアプローチのほとんどは、クラスタリングプロセスから分離されたクラスタの数を見積もっています。
論文 参考訳(メタデータ) (2024-10-12T11:04:10Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - Oracle-guided Contrastive Clustering [28.066047266687058]
Oracle-Guided Contrastive Clustering(OCC)は,ユニークな要求を持ったオーラクルに対して,ペアワイズで同クラスタ"クエリを対話的に作成することで,クラスタリングを実現する。
私たちの知る限りでは、パーソナライズされたクラスタリングを実行する最初のディープフレームワークです。
論文 参考訳(メタデータ) (2022-11-01T12:05:12Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - Dual Cluster Contrastive learning for Person Re-Identification [78.42770787790532]
私たちはDual Cluster Contrastive Learning(DCC)という統合クラスタコントラストフレームワークを定式化します。
DCCは、個々のメモリバンクとセントロイドクラスタメモリバンクの2種類のメモリバンクを維持している。
教師なしまたは監督されていない人物のReIDに容易に適用できる。
論文 参考訳(メタデータ) (2021-12-09T02:43:25Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Unsupervised Person Re-identification via Softened Similarity Learning [122.70472387837542]
人物再識別(re-ID)はコンピュータビジョンにおいて重要なトピックである。
本稿では,ラベル付き情報を必要としないre-IDの教師なし設定について検討する。
2つの画像ベースおよびビデオベースデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-07T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。