論文の概要: Optimal Variable Clustering for High-Dimensional Matrix Valued Data
- arxiv url: http://arxiv.org/abs/2112.12909v1
- Date: Fri, 24 Dec 2021 02:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 17:45:00.005894
- Title: Optimal Variable Clustering for High-Dimensional Matrix Valued Data
- Title(参考訳): 高次元行列値データに対する最適可変クラスタリング
- Authors: Inbeom Lee, Siyi Deng, Yang Ning
- Abstract要約: 本稿では,行列形式で配置された特徴に対して,新しい潜在変数モデルを提案する。
軽度条件下では,高次元設定でクラスタリングの整合性が得られる。
この重みを使用すれば、アルゴリズムが最小値の速度最適化であることが保証されるという意味で、最適な重みを識別する。
- 参考スコア(独自算出の注目度): 5.210197476419622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Matrix valued data has become increasingly prevalent in many applications.
Most of the existing clustering methods for this type of data are tailored to
the mean model and do not account for the dependence structure of the features,
which can be very informative, especially in high-dimensional settings. To
extract the information from the dependence structure for clustering, we
propose a new latent variable model for the features arranged in matrix form,
with some unknown membership matrices representing the clusters for the rows
and columns. Under this model, we further propose a class of hierarchical
clustering algorithms using the difference of a weighted covariance matrix as
the dissimilarity measure. Theoretically, we show that under mild conditions,
our algorithm attains clustering consistency in the high-dimensional setting.
While this consistency result holds for our algorithm with a broad class of
weighted covariance matrices, the conditions for this result depend on the
choice of the weight. To investigate how the weight affects the theoretical
performance of our algorithm, we establish the minimax lower bound for
clustering under our latent variable model. Given these results, we identify
the optimal weight in the sense that using this weight guarantees our algorithm
to be minimax rate-optimal in terms of the magnitude of some cluster separation
metric. The practical implementation of our algorithm with the optimal weight
is also discussed. Finally, we conduct simulation studies to evaluate the
finite sample performance of our algorithm and apply the method to a genomic
dataset.
- Abstract(参考訳): 行列値データは多くのアプリケーションでますます普及している。
このタイプのデータに対する既存のクラスタリング手法のほとんどは、平均モデルに合わせて調整されており、特に高次元の設定において非常に有意義な特徴の依存構造を考慮していない。
クラスタリングのための依存構造から情報を抽出するために,列と列のクラスタを表す未知のメンバシップ行列を用いて,行列形式で配置された特徴に対する新しい潜在変数モデルを提案する。
このモデルでは、重み付き共分散行列の差分を相似性尺度として用いた階層的クラスタリングアルゴリズムのクラスをさらに提案する。
理論上,温和な条件下では,高次元環境でのクラスタリング一貫性を実現する。
この一貫性の結果は、重み付き共分散行列の幅広いクラスを持つアルゴリズムに対して成立するが、この結果の条件は重みの選択に依存する。
この重みがアルゴリズムの理論的性能にどのように影響するかを調べるため、潜在変数モデルに基づいてクラスタリングのためのミニマックス下限を確立する。
これらの結果から, この重みを用いることで, クラスター分離計量の大きさの観点で, アルゴリズムが最小のレート最適となることを保証できるという意味で, 最適重みを同定する。
また,最適重み付きアルゴリズムの実用的実装についても論じる。
最後に,本アルゴリズムの有限サンプル性能を評価するためのシミュレーション研究を行い,その手法をゲノムデータセットに適用する。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Algorithme EM r\'egularis\'e [0.0]
本稿では,より少ないサンプルサイズに対応するために,事前知識を効率的に活用するEMアルゴリズムの正規化バージョンを提案する。
実データを用いた実験では,クラスタリングのための提案アルゴリズムの性能が向上した。
論文 参考訳(メタデータ) (2023-07-04T23:19:25Z) - Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model [13.082805815235975]
行列データに対して行次元と列次元の両方に隠れたバリエーションを抽出するために,モードワイド・プリンシパル・サブスペース・スーツ (MOP-UP) と呼ばれる新しいフレームワークを導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
論文 参考訳(メタデータ) (2023-07-02T13:59:47Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Multi-View Spectral Clustering with High-Order Optimal Neighborhood
Laplacian Matrix [57.11971786407279]
マルチビュースペクトルクラスタリングは、データ間の固有のクラスタ構造を効果的に明らかにすることができる。
本稿では,高次最適近傍ラプラシア行列を学習するマルチビュースペクトルクラスタリングアルゴリズムを提案する。
提案アルゴリズムは, 1次ベースと高次ベースの両方の線形結合の近傍を探索し, 最適ラプラシア行列を生成する。
論文 参考訳(メタデータ) (2020-08-31T12:28:40Z) - Discrete-Valued Latent Preference Matrix Estimation with Graph Side
Information [12.836994708337144]
最適なサンプルの複雑さにマッチするアルゴリズムを開発する。
我々のアルゴリズムはエラーをモデル化し、予測性能の点で既存のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-16T06:29:24Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。