論文の概要: Quality check of a sample partition using multinomial distribution
- arxiv url: http://arxiv.org/abs/2404.07778v1
- Date: Thu, 11 Apr 2024 14:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 13:40:16.788283
- Title: Quality check of a sample partition using multinomial distribution
- Title(参考訳): 多項分布を用いたサンプル分割の品質チェック
- Authors: Soumita Modak,
- Abstract要約: 我々は、サンプルのクラスタパーティションの品質をいくつかの異なるクラスに分類する目的で、新しい尺度を提唱する。
我々は,各クラスタの代表者からグループにクラスタ化されたデータメンバーの距離に,多項分布を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we advocate a novel measure for the purpose of checking the quality of a cluster partition for a sample into several distinct classes, and thus, determine the unknown value for the true number of clusters prevailing the provided set of data. Our objective leads us to the development of an approach through applying the multinomial distribution to the distances of data members, clustered in a group, from their respective cluster representatives. This procedure is carried out independently for each of the clusters, and the concerned statistics are combined together to design our targeted measure. Individual clusters separately possess the category-wise probabilities which correspond to different positions of its members in the cluster with respect to a typical member, in the form of cluster-centroid, medoid or mode, referred to as the corresponding cluster representative. Our method is robust in the sense that it is distribution-free, since this is devised irrespective of the parent distribution of the underlying sample. It fulfills one of the rare coveted qualities, present in the existing cluster accuracy measures, of having the capability to investigate whether the assigned sample owns any inherent clusters other than a single group of all members or not. Our measure's simple concept, easy algorithm, fast runtime, good performance, and wide usefulness, demonstrated through extensive simulation and diverse case-studies, make it appealing.
- Abstract(参考訳): 本稿では,サンプルのクラスタ分割の品質を複数の異なるクラスに分類する目的で,提案手法を提案する。
本研究の目的は, 各クラスタの代表者から, グループにクラスタ化されたデータメンバーの距離に, 多項分布を適用することによって, アプローチの開発に繋がる。
この手順は各クラスタに対して独立に実施され、関連する統計データを組み合わせて対象の測度を設計する。
個々のクラスタは、典型的なメンバに対して、クラスタ内のメンバの異なる位置に対応するカテゴリワイド確率を、クラスタセントロイド、メドイド、あるいは対応するクラスタ代表と呼ばれるモードの形で別々に保持する。
本手法は, 試料の親分布によらず, 分布自由であるという意味では頑健である。
これは、割り当てられたサンプルが全てのメンバーの1つのグループ以外の固有のクラスタを所有しているかどうかを調べる能力を持つ、既存のクラスタ精度測定に存在している、希少なクレーブされた品質の1つを満たす。
我々の測定の単純な概念、簡単なアルゴリズム、高速な実行、優れた性能、幅広い有用性は、広範囲なシミュレーションと多様なケーススタディを通して証明され、魅力的である。
関連論文リスト
- A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Revisiting Silhouette Aggregation [2.56711111236449]
シルエット係数(Silhouette coefficient)は、クラスタリングの割り当ての品質を評価し、データポイント当たりのスコアを生成する評価尺度である。
滅多に採用されない代替のパスは、まずクラスタレベルで平均し、次に(マクロ)クラスタ全体で平均することです。
典型的なマイクロアグレージング戦略はクラスタ不均衡に敏感であり,見過ごされたマクロアベリング戦略ははるかに堅牢であることを示す。
論文 参考訳(メタデータ) (2024-01-11T10:57:29Z) - Federated Two Stage Decoupling With Adaptive Personalization Layers [5.69361786082969]
フェデレーション学習は、プライバシ制約を維持しながら分散学習を可能にする能力によって、大きな注目を集めている。
本質的には、学習の劣化と収束速度の低下を経験する。
等質なクライアントを同じ群にクラスタリングするという概念を採用することは自然であり、各群内のモデル重みのみを集約することができる。
論文 参考訳(メタデータ) (2023-08-30T07:46:32Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Protecting Individual Interests across Clusters: Spectral Clustering
with Guarantees [20.350342151402963]
我々は、各クラスタが各クラスタに接続された適切なメンバー数を含む必要があるグラフ $mathcalg$ をクラスタリングするための個別フェアネス基準を提案する。
与えられた表現グラフの下で公正なクラスタを見つけるためのスペクトルクラスタリングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2021-05-08T15:03:25Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。