論文の概要: Optimal Variable Clustering for High-Dimensional Matrix Valued Data
- arxiv url: http://arxiv.org/abs/2112.12909v3
- Date: Wed, 6 Dec 2023 06:52:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:59:02.687209
- Title: Optimal Variable Clustering for High-Dimensional Matrix Valued Data
- Title(参考訳): 高次元行列値データに対する最適可変クラスタリング
- Authors: Inbeom Lee, Siyi Deng, Yang Ning
- Abstract要約: 本稿では,行列形式で配置された特徴に対して,新しい潜在変数モデルを提案する。
軽度条件下では,高次元設定でクラスタリングの整合性が得られる。
この重みを使用すれば、アルゴリズムが最小値の速度最適化であることが保証されるという意味で、最適な重みを識別する。
- 参考スコア(独自算出の注目度): 3.1138411427556445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix valued data has become increasingly prevalent in many applications.
Most of the existing clustering methods for this type of data are tailored to
the mean model and do not account for the dependence structure of the features,
which can be very informative, especially in high-dimensional settings or when
mean information is not available. To extract the information from the
dependence structure for clustering, we propose a new latent variable model for
the features arranged in matrix form, with some unknown membership matrices
representing the clusters for the rows and columns. Under this model, we
further propose a class of hierarchical clustering algorithms using the
difference of a weighted covariance matrix as the dissimilarity measure.
Theoretically, we show that under mild conditions, our algorithm attains
clustering consistency in the high-dimensional setting. While this consistency
result holds for our algorithm with a broad class of weighted covariance
matrices, the conditions for this result depend on the choice of the weight. To
investigate how the weight affects the theoretical performance of our
algorithm, we establish the minimax lower bound for clustering under our latent
variable model in terms of some cluster separation metric. Given these results,
we identify the optimal weight in the sense that using this weight guarantees
our algorithm to be minimax rate-optimal. The practical implementation of our
algorithm with the optimal weight is also discussed. Simulation studies show
that our algorithm performs better than existing methods in terms of the
adjusted Rand index (ARI). The method is applied to a genomic dataset and
yields meaningful interpretations.
- Abstract(参考訳): 行列値データは多くのアプリケーションでますます普及している。
このタイプのデータに対する既存のクラスタリング手法のほとんどは、平均モデルに合わせたものであり、特に高次元の設定や平均情報が入手できない場合において非常に有益である特徴の依存構造を考慮していない。
クラスタリングのための依存構造から情報を抽出するために,列と列のクラスタを表す未知のメンバシップ行列を用いて,行列形式で配置された特徴に対する新しい潜在変数モデルを提案する。
このモデルでは、重み付き共分散行列の差分を相似性尺度として用いた階層的クラスタリングアルゴリズムのクラスをさらに提案する。
理論上,温和な条件下では,高次元環境でのクラスタリング一貫性を実現する。
この一貫性の結果は、重み付き共分散行列の幅広いクラスを持つアルゴリズムに対して成立するが、この結果の条件は重みの選択に依存する。
この重みがアルゴリズムの理論的性能にどのように影響するかを調べるため、あるクラスター分離計量の観点から、潜在変数モデルの下でのクラスタリングのミニマックス下限を確立する。
これらの結果から、この重み付けを用いることで、アルゴリズムが最小値の速度-最適であることが保証される。
また,最適重み付きアルゴリズムの実用的実装についても論じる。
シミュレーションにより,本アルゴリズムは既存の手法よりも,調整ランド指数 (ari) の点で優れた性能を示す。
この方法はゲノムデータセットに適用され、意味のある解釈をもたらす。
関連論文リスト
- An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Algorithme EM r\'egularis\'e [0.0]
本稿では,より少ないサンプルサイズに対応するために,事前知識を効率的に活用するEMアルゴリズムの正規化バージョンを提案する。
実データを用いた実験では,クラスタリングのための提案アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-07-04T23:19:25Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [12.381700512445805]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Discrete-Valued Latent Preference Matrix Estimation with Graph Side
Information [12.836994708337144]
最適なサンプルの複雑さにマッチするアルゴリズムを開発する。
我々のアルゴリズムはエラーをモデル化し、予測性能の点で既存のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-16T06:29:24Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。