論文の概要: Factor Adjusted Spectral Clustering for Mixture Models
- arxiv url: http://arxiv.org/abs/2408.12564v1
- Date: Thu, 22 Aug 2024 17:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:02:30.273504
- Title: Factor Adjusted Spectral Clustering for Mixture Models
- Title(参考訳): 混合モデルに対する因子調整スペクトルクラスタリング
- Authors: Shange Tang, Soham Jana, Jianqing Fan,
- Abstract要約: 本稿では,FASC(Factor Adjusted Spectral Clustering)アルゴリズムを提案する。
我々の仮定は、広範因子モデル、弱因子モデル、スパース因子モデルなど、文献における古典的因子モデルの多くを橋渡しする。
FASCは、伝統的なスペクトルクラスタリングが失敗する多くのケースで重要な結果をもたらす。
- 参考スコア(独自算出の注目度): 6.806940901668607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a factor modeling-based approach for clustering high-dimensional data generated from a mixture of strongly correlated variables. Statistical modeling with correlated structures pervades modern applications in economics, finance, genomics, wireless sensing, etc., with factor modeling being one of the popular techniques for explaining the common dependence. Standard techniques for clustering high-dimensional data, e.g., naive spectral clustering, often fail to yield insightful results as their performances heavily depend on the mixture components having a weakly correlated structure. To address the clustering problem in the presence of a latent factor model, we propose the Factor Adjusted Spectral Clustering (FASC) algorithm, which uses an additional data denoising step via eliminating the factor component to cope with the data dependency. We prove this method achieves an exponentially low mislabeling rate, with respect to the signal to noise ratio under a general set of assumptions. Our assumption bridges many classical factor models in the literature, such as the pervasive factor model, the weak factor model, and the sparse factor model. The FASC algorithm is also computationally efficient, requiring only near-linear sample complexity with respect to the data dimension. We also show the applicability of the FASC algorithm with real data experiments and numerical studies, and establish that FASC provides significant results in many cases where traditional spectral clustering fails.
- Abstract(参考訳): 本稿では,強い相関変数の混合から生成された高次元データをクラスタリングするための因子モデルに基づくアプローチについて検討する。
相関構造を用いた統計的モデリングは、経済学、金融学、ゲノム学、無線センシングなどにおける近代的な応用に及んでいる。
スペクトルクラスタリングのような高次元データをクラスタリングする標準的な手法は、その性能が弱い相関構造を持つ混合成分に大きく依存するため、洞察力のある結果を得ることができないことが多い。
潜在因子モデルの存在下でのクラスタリング問題に対処するため,データ依存に対処する因子成分を排除して付加的なデータデノナイズステップを使用するFASCアルゴリズムを提案する。
本手法は,一般的な仮定の下での信号と雑音の比に関して,指数的に低い誤ラベル率を達成することを実証する。
我々の仮定は、広範因子モデル、弱因子モデル、スパース因子モデルなど、文献における古典的因子モデルの多くを橋渡しする。
FASCアルゴリズムは計算効率も良く、データ次元に関してほぼ線形のサンプルの複雑さしか必要としない。
また、実データ実験や数値実験によるFASCアルゴリズムの適用性を示し、従来のスペクトルクラスタリングが失敗するケースの多くにおいてFASCが有意な結果をもたらすことを証明した。
関連論文リスト
- A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Sanitized Clustering against Confounding Bias [38.928080236294775]
本稿では,共起バイアスに対する衛生クラスタリング(SCAB)という新しいクラスタリングフレームワークを提案する。
SCABは、非線型依存尺度を通じて、複素データのセマンティック潜在空間における境界要素を除去する。
複雑なデータセットの実験は、SCABがクラスタリングのパフォーマンスにおいて大きな向上を達成していることを示している。
論文 参考訳(メタデータ) (2023-11-02T14:10:14Z) - A Bayesian Framework on Asymmetric Mixture of Factor Analyser [0.0]
本稿では、スキュー正規(無制限)一般化双曲型(SUNGH)分布のリッチで柔軟なクラスを持つMFAモデルを提案する。
SUNGHファミリーは、様々な方向の歪みをモデル化する柔軟性と、重み付きデータを可能にする。
因子分析モデルを考慮すると、SUNGHファミリーは誤差成分と因子スコアの両方の歪みと重みを許容する。
論文 参考訳(メタデータ) (2022-11-01T20:19:52Z) - The effectiveness of factorization and similarity blending [0.0]
CF(Collaborative Filtering)は、過去のユーザの好みデータを活用して行動パターンを特定し、カスタムレコメンデーションを予測するテクニックである。
因子分解と類似性に基づくアプローチを組み合わせることで,スタンドアローンモデルにおける誤差の顕著な減少(-9.4%)が期待できることを示す。
本稿では,従来のアルゴリズムの複雑さを一貫して低減する類似性モデルSCSRの新たな拡張を提案する。
論文 参考訳(メタデータ) (2022-09-16T13:11:27Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Exact Clustering in Tensor Block Model: Statistical Optimality and
Computational Limit [10.8145995157397]
高階クラスタリングは、マルチウェイデータセットの異種サブ構造を特定することを目的とする。
非計算と問題の性質は統計学と統計学の両方に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-12-18T00:48:27Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Repulsive Mixture Models of Exponential Family PCA for Clustering [127.90219303669006]
指数関数型家族主成分分析(EPCA)の混合拡張は、従来のEPCAよりもデータ分布に関する構造情報を符号化するように設計された。
従来のEPCAの混合は、モデルの冗長性、すなわち混合成分間の重なりが問題であり、データクラスタリングの曖昧さを引き起こす可能性がある。
本稿では, 混合成分間での反発性増感前処理を導入し, ベイズ式に分散EPCA混合(DEPCAM)モデルを開発した。
論文 参考訳(メタデータ) (2020-04-07T04:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。