論文の概要: On uniqueness of the set of k-means
- arxiv url: http://arxiv.org/abs/2410.13495v1
- Date: Thu, 17 Oct 2024 12:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:37.206658
- Title: On uniqueness of the set of k-means
- Title(参考訳): k-平均集合の特異性について
- Authors: Javier Cárcamo, Antonio Cuevas, Luis A. Rodríguez,
- Abstract要約: 非特異性の設定に適応した経験的k平均の整合性を評価する。
k-平均集合の特異性に対するブートストラップ試験を導出する。
結果は、異なる種類の非特異性の例で示される。
- 参考スコア(独自算出の注目度): 0.5735035463793009
- License:
- Abstract: We provide necessary and sufficient conditions for the uniqueness of the k-means set of a probability distribution. This uniqueness problem is related to the choice of k: depending on the underlying distribution, some values of this parameter could lead to multiple sets of k-means, which hampers the interpretation of the results and/or the stability of the algorithms. We give a general assessment on consistency of the empirical k-means adapted to the setting of non-uniqueness and determine the asymptotic distribution of the within cluster sum of squares (WCSS). We also provide statistical characterizations of k-means uniqueness in terms of the asymptotic behavior of the empirical WCSS. As a consequence, we derive a bootstrap test for uniqueness of the set of k-means. The results are illustrated with examples of different types of non-uniqueness and we check by simulations the performance of the proposed methodology.
- Abstract(参考訳): 確率分布の k-平均集合の特異性に対する必要十分条件を提供する。
この一意性問題は k の選択に関係しており、基礎となる分布によっては、このパラメータのいくつかの値は、結果の解釈やアルゴリズムの安定性を損なうような k-平均の集合に繋がる可能性がある。
非特異性の設定に適応した経験的k平均の整合性に関する一般的な評価を行い、正方形の内クラスター和(WCSS)の漸近分布を決定する。
また,経験的 WCSS の漸近的挙動の観点から,k-means の特異性を統計的に評価した。
その結果,k-meansの集合の特異性に対するブートストラップテストが導出された。
この結果は, 異なる種類の非特異性の例で示され, 提案手法の性能をシミュレーションにより検証する。
関連論文リスト
- Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Bayesian Quantification with Black-Box Estimators [1.599072005190786]
調整された分類と数、ブラックボックスシフト推定器、不変比推定器などのアプローチでは、クラス分布を推定し、弱い仮定の下で保証を得る補助的(および潜在的に偏りのある)ブラックボックス分類器を用いる。
これら全てのアルゴリズムが特定のベイズ連鎖モデルにおける推論と密接に関連していることを示し、仮定された基底構造生成過程を近似する。
次に,導入モデルに対する効率的なマルコフ・モンテカルロサンプリング手法について検討し,大容量データ限界における一貫性の保証を示す。
論文 参考訳(メタデータ) (2023-02-17T22:10:04Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Selective inference for k-means clustering [0.0]
k平均クラスタリングを用いて得られた一対のクラスタ間の差分に対する選択型I誤差を制御する有限サンプルp値を提案する。
提案手法をシミュレーションや手書き桁データ,シングルセルRNAシークエンシングデータに適用する。
論文 参考訳(メタデータ) (2022-03-29T06:28:12Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - A Nonparametric Test of Dependence Based on Ensemble of Decision Trees [0.0]
提案した係数は、観測されたサンプルS_n : (X_i, Y_i), i = 1の量を定量化する置換様統計量である。
n は置換標本 S_nn : (X_i, Y_j) i, j = 1 から判別可能である。
2つの変数が独立している。
論文 参考訳(メタデータ) (2020-07-24T02:48:33Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Profile Entropy: A Fundamental Measure for the Learnability and
Compressibility of Discrete Distributions [63.60499266361255]
離散分布のサンプルに対して、プロファイルエントロピーは推定、推論、圧縮の概念を統一する基本的な尺度であることを示す。
具体的には、プロファイルエントロピー a) は、最適自然推定器に対する分布を推定する速度を決定する; b) 任意のラベル不変分布コレクションに対する最適推定器と比較して全ての対称特性を推定する速度を特徴付ける; c) プロファイル圧縮の限界として機能する。
論文 参考訳(メタデータ) (2020-02-26T17:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。