論文の概要: The elbow statistic: Multiscale clustering statistical significance
- arxiv url: http://arxiv.org/abs/2603.03235v1
- Date: Tue, 03 Mar 2026 18:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.925918
- Title: The elbow statistic: Multiscale clustering statistical significance
- Title(参考訳): 肘統計:マルチスケールクラスタリング統計学的意義
- Authors: Francisco J. Perez-Reche,
- Abstract要約: 厳密な推論問題としてelbowメソッドを形式化するフレームワークであるElbowSigを紹介する。
アルゴリズムに依存しない手順として、ElbowSigは不均一性シーケンスのみを必要とし、幅広いクラスタリング手法と互換性がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the number of clusters remains a fundamental challenge in unsupervised learning. Existing criteria typically target a single ``optimal'' partition, often overlooking statistically meaningful structure present at multiple resolutions. We introduce ElbowSig, a framework that formalizes the heuristic ``elbow'' method as a rigorous inferential problem. Our approach centers on a normalized discrete curvature statistic derived from the cluster heterogeneity sequence, which is evaluated against a null distribution of unstructured data. We derive the asymptotic properties of this null statistic in both large-sample and high-dimensional regimes, characterizing its baseline behavior and stochastic variability. As an algorithm-agnostic procedure, ElbowSig requires only the heterogeneity sequence and is compatible with a wide range of clustering methods, including hard, fuzzy, and model-based clustering. Extensive experiments on synthetic and empirical datasets demonstrate that the method maintains appropriate Type-I error control while providing the power to resolve multiscale organizational structures that are typically obscured by single-resolution selection criteria.
- Abstract(参考訳): クラスタ数を選択することは、教師なし学習における根本的な課題である。
既存の基準は、通常、複数の解像度に存在する統計的に有意な構造を見落とし、単一の「最適」分割をターゲットにしている。
本稿では,厳密な推論問題としてヒューリスティックな `elbow'' メソッドを形式化するフレームワークであるElbowSigを紹介する。
提案手法はクラスタの不均一性列から導かれる正規化離散曲率統計を中心とし,非構造データの零分布に対して評価する。
我々は、このヌル統計学の漸近的性質を、大きなサンプルと高次元のレジームの両方で導き出し、そのベースラインの挙動と確率的変動を特徴づける。
アルゴリズムに依存しない手順として、ElbowSigは不均一性シーケンスのみを必要とし、ハード、ファジィ、モデルベースのクラスタリングを含む幅広いクラスタリング手法と互換性がある。
合成および経験的データセットに関する大規模な実験は、この手法が適切なType-Iエラー制御を維持しつつ、通常は単分解能選択基準によって隠蔽されるマルチスケールの組織構造を解決できることを実証している。
関連論文リスト
- Hierarchical Clustering With Confidence [6.479319856992936]
集約的階層的クラスタリングは、データの小さな摂動に非常に敏感である。
階層的クラスタリングのランダム化は,安定性の測定だけでなく,有効な仮説テスト手順の設計にも有用であることを示す。
論文 参考訳(メタデータ) (2025-12-06T18:18:20Z) - CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [49.11819337853632]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - High-dimensional variable clustering based on maxima of a weakly dependent random process [1.1999555634662633]
本稿では,Asymptotic Independent Block (AI-block)モデルと呼ばれる,変数クラスタリングのための新しいモデルのクラスを提案する。
このモデルのクラスは特定可能であり、つまり、分割の間に部分的な順序を持つ極大要素が存在し、統計的推測が可能であることを意味する。
また,変数のクラスタを列挙するチューニングパラメータに依存するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-02T08:24:26Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Supervised Multivariate Learning with Simultaneous Feature Auto-grouping
and Dimension Reduction [7.093830786026851]
本稿では,クラスタ化低ランク学習フレームワークを提案する。
2つの合同行列正則化を課し、予測因子を構成する特徴を自動的にグループ化する。
低ランクなモデリングよりも解釈可能であり、変数選択における厳密な空間性仮定を緩和する。
論文 参考訳(メタデータ) (2021-12-17T20:11:20Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Selecting the Number of Clusters $K$ with a Stability Trade-off: an
Internal Validation Criterion [0.0]
クラスタリングの安定性は自然でモデルに依存しない原理として現れてきた。
優れたクラスタリングは安定すべきであり、各クラスタには安定したパーティションが存在しなければならない、という新しい原則を提案します。
論文 参考訳(メタデータ) (2020-06-15T16:38:48Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。