論文の概要: Robust spectral clustering with rank statistics
- arxiv url: http://arxiv.org/abs/2408.10136v1
- Date: Mon, 19 Aug 2024 16:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 15:23:23.680415
- Title: Robust spectral clustering with rank statistics
- Title(参考訳): ランク統計を用いたロバストスペクトルクラスタリング
- Authors: Joshua Cape, Xianshi Yu, Jonquil Z. Liao,
- Abstract要約: 固有ベクトルに基づくクラスタリングは、原データ行列からエントリーワイドに導出される非パラメトリックランク統計の行列に適用される。
我々の主な理論的貢献は3倍であり、柔軟なデータ生成条件の下で保持される。
人間のコネクトームのデータセットの場合,本手法は相似次元の減少と,地中神経解剖学的クラスター構造の回復を改善させる。
- 参考スコア(独自算出の注目度): 0.3823356975862007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper analyzes the statistical performance of a robust spectral clustering method for latent structure recovery in noisy data matrices. We consider eigenvector-based clustering applied to a matrix of nonparametric rank statistics that is derived entrywise from the raw, original data matrix. This approach is robust in the sense that, unlike traditional spectral clustering procedures, it can provably recover population-level latent block structure even when the observed data matrix includes heavy-tailed entries and has a heterogeneous variance profile. Our main theoretical contributions are threefold and hold under flexible data generating conditions. First, we establish that robust spectral clustering with rank statistics can consistently recover latent block structure, viewed as communities of nodes in a graph, in the sense that unobserved community memberships for all but a vanishing fraction of nodes are correctly recovered with high probability when the data matrix is large. Second, we refine the former result and further establish that, under certain conditions, the community membership of any individual, specified node of interest can be asymptotically exactly recovered with probability tending to one in the large-data limit. Third, we establish asymptotic normality results associated with the truncated eigenstructure of matrices whose entries are rank statistics, made possible by synthesizing contemporary entrywise matrix perturbation analysis with the classical nonparametric theory of so-called simple linear rank statistics. Collectively, these results demonstrate the statistical utility of rank-based data transformations when paired with spectral techniques for dimensionality reduction. Additionally, for a dataset of human connectomes, our approach yields parsimonious dimensionality reduction and improved recovery of ground-truth neuroanatomical cluster structure.
- Abstract(参考訳): 本稿では、雑音データ行列における遅延構造回復のためのロバストスペクトルクラスタリング法の統計的性能を解析する。
固有ベクトルに基づくクラスタリングは、原データ行列からエントリーワイドに導出される非パラメトリックランク統計の行列に適用される。
この手法は、従来のスペクトルクラスタリング法とは異なり、観測されたデータ行列が重み付きエントリを含み、不均一な分散プロファイルを持つ場合でも、確実に人口レベルの潜在ブロック構造を復元できるという意味で堅牢である。
我々の主な理論的貢献は3倍であり、柔軟なデータ生成条件の下で保持される。
まず,グラフ内のノードの集合と見なされる頑健なスペクトルクラスタリングにより,データ行列が大きい場合,消失するノードを除くすべてのノードの未観測コミュニティメンバシップが,高い確率で復元可能であることを確認した。
第二に、前者の結果を精査し、ある条件下では、特定の興味のある特定のノードのコミュニティメンバーシップが、大きなデータ制限の確率で漸近的に正確に回復できることを確立する。
第3に,古典的非パラメトリック理論といわゆる単純線形ランク統計を併用して,現代的エントリーワイド行列摂動解析を合成することにより,エントリーがランク統計である行列の切り離された固有構造に付随する漸近正規性結果を確立する。
これらの結果は,次元減少のためのスペクトル技術と組み合わせることで,ランクに基づくデータ変換の統計的有用性を示すものである。
さらに, 人間のコネクトームのデータセットでは, 擬似次元の減少と, 地中神経解剖学的クラスター構造の回復が期待できる。
関連論文リスト
- Induced Covariance for Causal Discovery in Linear Sparse Structures [55.2480439325792]
因果モデルでは、観測データから変数間の因果関係を解き明かそうとしている。
本稿では,変数が線形に疎結合な関係を示す設定のための新しい因果探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T04:01:38Z) - High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Clustering Three-Way Data with Outliers [1.0435741631709405]
行列変量正規データを異常値でクラスタリングする手法について論じる。
このアプローチは、サブセットのログライクな分布を使い、OCLUSTアルゴリズムを拡張し、反復的なアプローチを使ってアウトレイラを検出しトリムする。
論文 参考訳(メタデータ) (2023-10-08T21:27:29Z) - Accelerated structured matrix factorization [0.0]
行列分解は、複雑な高次元データにおいて、実際の信号は一般に低次元構造にあるという考え方を利用する。
ベイジアン縮退を先取りして,高次元行列分解のための計算に便利な手法を考案する。
行と列のエンティティ間の依存性は、要素内でフレキシブルなスパースパターンを誘導することによってモデル化される。
論文 参考訳(メタデータ) (2022-12-13T11:35:01Z) - Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。
6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-21T01:47:17Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Robust Matrix Completion with Mixed Data Types [0.0]
我々は,データ型が混在する部分的なエントリを持つ構造的低ランク行列を復元する問題を考察する。
ほとんどのアプローチは、基礎となる分布は1つしかないと仮定し、低階の制約は、行列 Satten Norm によって正則化される。
本稿では, 並列化に適したアルゴリズムフレームワークとともに, 高い回復保証を有する計算可能な統計手法を提案し, 混合データ型に対する部分的に観測されたエントリを持つ低階行列を1ステップで復元する。
論文 参考訳(メタデータ) (2020-05-25T21:35:10Z) - Strong Consistency, Graph Laplacians, and the Stochastic Block Model [1.2891210250935143]
ブロックモデルを学ぶために,古典的な2段階のスペクトルクラスタリングの性能をグラフラプラシアンを用いて検討する。
スペクトルクラスタリングは,情報理論の限界に合致する条件下で,植民コミュニティ構造を正確に復元できることを示す。
論文 参考訳(メタデータ) (2020-04-21T07:16:46Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - A unified framework for spectral clustering in sparse graphs [47.82639003096941]
正規化ラプラシア行列の便利なパラメータ化形式はスパースネットワークにおけるスペクトルクラスタリングに利用できることを示す。
また、この提案された行列と、現在一般的な非バックトラック行列であるベーテ・ヘッセン行列との間の重要な関係を示す。
論文 参考訳(メタデータ) (2020-03-20T10:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。