論文の概要: Hierarchical Clustering With Confidence
- arxiv url: http://arxiv.org/abs/2512.06522v1
- Date: Sat, 06 Dec 2025 18:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.393328
- Title: Hierarchical Clustering With Confidence
- Title(参考訳): 信頼性を備えた階層的クラスタリング
- Authors: Di Wu, Jacob Bien, Snigdha Panigrahi,
- Abstract要約: 集約的階層的クラスタリングは、データの小さな摂動に非常に敏感である。
階層的クラスタリングのランダム化は,安定性の測定だけでなく,有効な仮説テスト手順の設計にも有用であることを示す。
- 参考スコア(独自算出の注目度): 6.479319856992936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agglomerative hierarchical clustering is one of the most widely used approaches for exploring how observations in a dataset relate to each other. However, its greedy nature makes it highly sensitive to small perturbations in the data, often producing different clustering results and making it difficult to separate genuine structure from spurious patterns. In this paper, we show how randomizing hierarchical clustering can be useful not just for measuring stability but also for designing valid hypothesis testing procedures based on the clustering results. We propose a simple randomization scheme together with a method for constructing a valid p-value at each node of the hierarchical clustering dendrogram that quantifies evidence against performing the greedy merge. Our test controls the Type I error rate, works with any hierarchical linkage without case-specific derivations, and simulations show it is substantially more powerful than existing selective inference approaches. To demonstrate the practical utility of our p-values, we develop an adaptive $α$-spending procedure that estimates the number of clusters, with a probabilistic guarantee on overestimation. Experiments on simulated and real data show that this estimate yields powerful clustering and can be used, for example, to assess clustering stability across multiple runs of the randomized algorithm.
- Abstract(参考訳): 集約的階層的クラスタリングは、データセット内の観測が相互にどのように関連しているかを探索するために最も広く使用されるアプローチの1つである。
しかし、その強欲な性質は、データの小さな摂動に非常に敏感であり、しばしば異なるクラスタリング結果を生み出し、真の構造を刺激的なパターンから分離することが困難である。
本稿では, 階層クラスタリングのランダム化が, 安定性の測定だけでなく, クラスタリング結果に基づいた有効な仮説検証手法の設計にも有効であることを示す。
本稿では,階層クラスタリングデンドログラムの各ノードに有効なp-値を構築する手法とともに,単純なランダム化手法を提案する。
我々のテストはタイプIの誤差率を制御し,ケース固有な導出を伴わずに階層的なリンクを処理し,シミュレーションにより既存の選択推論手法よりもかなり強力であることが示された。
p-値の実用性を実証するため,クラスタ数を推定する適応的な$α$-spending法を開発し,過大評価の確率的保証を与える。
シミュレーションおよび実データの実験により、この推定値が強力なクラスタリングをもたらし、例えばランダム化されたアルゴリズムの複数の実行におけるクラスタリング安定性を評価するために使用できることが示された。
関連論文リスト
- Parameter-Free Clustering via Self-Supervised Consensus Maximization (Extended Version) [50.41628860536753]
本稿では,SCMax と呼ばれる自己教師型コンセンサス最大化による,新しい完全パラメータフリークラスタリングフレームワークを提案する。
本フレームワークは,階層的なクラスタリングとクラスタ評価を単一の統合プロセスで行う。
論文 参考訳(メタデータ) (2025-11-12T11:17:17Z) - CoHiRF: A Scalable and Interpretable Clustering Framework for High-Dimensional Data [0.30723404270319693]
課題を効果的に解決する新しいクラスタリング手法であるCoHiRF(Consensus Hierarchical Random Feature)を提案する。
CoHiRFは、ランダムな特徴選択を利用してノイズと次元効果を緩和し、縮小された特徴空間にK平均クラスタリングを繰り返し適用し、全一致のコンセンサス基準で結果を組み合わせる。
CoHiRFはK-Meansに匹敵する実行時間で計算効率が高く、大規模データセットにスケーラブルで、SC-SRGF、HDBSCAN、OPTICSといった最先端の手法に対して堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-02-01T09:38:44Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。