論文の概要: ALPCAHUS: Subspace Clustering for Heteroscedastic Data
- arxiv url: http://arxiv.org/abs/2505.18918v2
- Date: Sun, 01 Jun 2025 14:48:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:29.967109
- Title: ALPCAHUS: Subspace Clustering for Heteroscedastic Data
- Title(参考訳): ALPCAHUS: Heteroscedastic Dataのためのサブスペースクラスタリング
- Authors: Javier Salazar Cavazos, Jeffrey A Fessler, Laura Balzano,
- Abstract要約: 本稿では,ALPCAHUSというヘテロスセダスティックなサブスペースクラスタリング手法を提案する。
サンプル単位のノイズ分散を推定し、この情報を用いて、データの低ランク構造に関連するサブスペースベースの推定を改善する。
- 参考スコア(独自算出の注目度): 15.812312064457867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Principal component analysis (PCA) is a key tool in the field of data dimensionality reduction. Various methods have been proposed to extend PCA to the union of subspace (UoS) setting for clustering data that come from multiple subspaces like K-Subspaces (KSS). However, some applications involve heterogeneous data that vary in quality due to noise characteristics associated with each data sample. Heteroscedastic methods aim to deal with such mixed data quality. This paper develops a heteroscedastic-focused subspace clustering method, named ALPCAHUS, that can estimate the sample-wise noise variances and use this information to improve the estimate of the subspace bases associated with the low-rank structure of the data. This clustering algorithm builds on K-Subspaces (KSS) principles by extending the recently proposed heteroscedastic PCA method, named LR-ALPCAH, for clusters with heteroscedastic noise in the UoS setting. Simulations and real-data experiments show the effectiveness of accounting for data heteroscedasticity compared to existing clustering algorithms. Code available at https://github.com/javiersc1/ALPCAHUS.
- Abstract(参考訳): 主成分分析(PCA)はデータ次元削減の分野で重要なツールである。
K-Subspaces (KSS)のような複数のサブスペースから来るデータをクラスタリングするために、PCAをサブスペースの和集合(UoS)に拡張する様々な方法が提案されている。
しかし,各データサンプルに付随するノイズ特性により品質が変化する異種データを含むアプリケーションもある。
ヘテロセダスティックな手法は、このような混合データ品質を扱うことを目的としている。
本稿では,サンプル単位のノイズ分散を推定し,この情報を用いてデータの低ランク構造に関連するサブスペースベースの推定を改善するヘテロスセダスティックなサブスペースクラスタリング手法であるALPCAHUSを開発した。
このクラスタリングアルゴリズムはK-Subspaces(KSS)の原理に基づいて、UoS設定におけるヘテロスセダティックノイズを持つクラスタに対して、最近提案されたヘテロスセダティックPCA法(LR-ALPCAH)を拡張した。
シミュレーションと実データ実験は、既存のクラスタリングアルゴリズムと比較して、データのヘテロシステキティを考慮した会計の有効性を示している。
コードはhttps://github.com/javiersc1/ALPCAHUSで公開されている。
関連論文リスト
- ALPCAH: Subspace Learning for Sample-wise Heteroscedastic Data [15.812312064457867]
本稿では,サンプル単位の雑音分散を推定できる部分空間学習手法 ALPCAH を提案する。
本手法は低ランク成分の分布を仮定せず,ノイズ分散が知られていると仮定しない。
さらに, ALPCAH の行列分解版である LR-ALPCAH を開発した。
論文 参考訳(メタデータ) (2025-05-12T06:49:47Z) - ALPCAH: Sample-wise Heteroscedastic PCA with Tail Singular Value
Regularization [17.771454131646312]
主成分分析はデータ次元削減の分野で重要なツールである。
そこで本研究では,サンプル単位の雑音分散を推定できるPCA法を開発した。
これは低ランク成分の分布的な仮定なしで、ノイズの分散が知られていると仮定せずに行われる。
論文 参考訳(メタデータ) (2023-07-06T03:11:11Z) - Adaptive Graph Convolutional Subspace Clustering [10.766537212211217]
スペクトル型サブスペースクラスタリングアルゴリズムは多くのサブスペースクラスタリングアプリケーションにおいて優れた性能を示している。
本稿では,グラフ畳み込みネットワークにヒントを得たグラフ畳み込み手法を用いて特徴抽出法と係数行列制約を同時に開発する。
AGCSCを用いることで、元のデータサンプルの集合的特徴表現がサブスペースクラスタリングに適していると主張する。
論文 参考訳(メタデータ) (2023-05-05T10:27:23Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。