論文の概要: Cluster Quilting: Spectral Clustering for Patchwork Learning
- arxiv url: http://arxiv.org/abs/2406.13833v1
- Date: Wed, 19 Jun 2024 20:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:15:51.710384
- Title: Cluster Quilting: Spectral Clustering for Patchwork Learning
- Title(参考訳): Cluster Quilting: パッチワーク学習のためのスペクトルクラスタリング
- Authors: Lili Zheng, Andersen Chang, Genevera I. Allen,
- Abstract要約: 我々は、パッチワーク学習におけるクラスタリングの問題に焦点をあて、何らかの機能に対して共同で観測されない場合であっても、すべてのサンプル間のクラスタを見つけることを目的としている。
本稿では, (i) パッチ間の重なり構造を利用するパッチ順序付け, (ii) パッチワイズSVD, (iii) パッチオーバーラップのためのトップ特異ベクトルの逐次線形マッピング, (iv) 結合および重み付き特異ベクトル上のk-meansからなる新しいスペクトルクラスタリング手法を提案する。
準ガウス混合モデルの下では、両者を反映する非漸近的誤クラスタリング率による理論的保証を確立する。
- 参考スコア(独自算出の注目度): 8.500141848121782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patchwork learning arises as a new and challenging data collection paradigm where both samples and features are observed in fragmented subsets. Due to technological limits, measurement expense, or multimodal data integration, such patchwork data structures are frequently seen in neuroscience, healthcare, and genomics, among others. Instead of analyzing each data patch separately, it is highly desirable to extract comprehensive knowledge from the whole data set. In this work, we focus on the clustering problem in patchwork learning, aiming at discovering clusters amongst all samples even when some are never jointly observed for any feature. We propose a novel spectral clustering method called Cluster Quilting, consisting of (i) patch ordering that exploits the overlapping structure amongst all patches, (ii) patchwise SVD, (iii) sequential linear mapping of top singular vectors for patch overlaps, followed by (iv) k-means on the combined and weighted singular vectors. Under a sub-Gaussian mixture model, we establish theoretical guarantees via a non-asymptotic misclustering rate bound that reflects both properties of the patch-wise observation regime as well as the clustering signal and noise dependencies. We also validate our Cluster Quilting algorithm through extensive empirical studies on both simulated and real data sets in neuroscience and genomics, where it discovers more accurate and scientifically more plausible clusters than other approaches.
- Abstract(参考訳): パッチワーク学習は、サンプルと機能の両方が断片化されたサブセットで観察される、新しくて困難なデータ収集パラダイムとして生まれます。
技術限界、測定費用、マルチモーダルデータ統合により、そのようなパッチワークのデータ構造は神経科学、医療、ゲノム学などでよく見られる。
各データパッチを別々に解析する代わりに、データセット全体から包括的な知識を抽出することが非常に望ましい。
本研究は,パッチワーク学習におけるクラスタリング問題に焦点をあて,何らかの機能に対して共同で観測されない場合であっても,すべてのサンプル間のクラスタを見つけることを目的としている。
本稿では,クラスタリングと呼ばれる新しいスペクトルクラスタリング手法を提案する。
(i)すべてのパッチ間の重なり合う構造を利用するパッチ順序付け。
(ii)パッチワイズSVD
三 パッチ重複に対する頂点特異ベクトルの逐次線型写像
(iv)k-平均を合成および重み付き特異ベクトルとする。
準ガウス混合モデルの下では、パッチワイド観測系の特性とクラスタリング信号とノイズ依存性の両方を反映する非漸近的誤クラスタリング速度バウンダリによる理論的保証を確立する。
我々はまた、神経科学とゲノム学のシミュレーションデータセットと実際のデータセットの両方に関する広範な実験的な研究を通して、クラスタ・クィルティングのアルゴリズムを検証する。
関連論文リスト
- Spectral Clustering in Convex and Constrained Settings [0.0]
半定スペクトルクラスタリングにペアワイズ制約をシームレスに統合する新しいフレームワークを提案する。
本手法は,半定スペクトルクラスタリングによって複雑なデータ構造を捕捉する能力を体系的に拡張する。
論文 参考訳(メタデータ) (2024-04-03T18:50:14Z) - Semi-Supervised Clustering via Structural Entropy with Different
Constraints [30.215985625884922]
本稿では,多種多様な制約を組み込んで,分割と階層クラスタリングを両立させる手法であるStructure Entropy (SSE) による半教師付きクラスタリングを提案する。
9つのクラスタリングデータセット上でSSEを評価し,それを11の半教師付きパーティショニングおよび階層クラスタリング手法と比較した。
論文 参考訳(メタデータ) (2023-12-18T04:00:40Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Enhancing cluster analysis via topological manifold learning [0.3823356975862006]
クラスタ化前にデータセットのトポロジ構造を推定することで,クラスタ検出を大幅に向上させることができることを示す。
位相構造を推定するための多様体学習法UMAPと密度に基づくクラスタリング法DBSCANを組み合わせた。
論文 参考訳(メタデータ) (2022-07-01T15:53:39Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - UCSL : A Machine Learning Expectation-Maximization framework for
Unsupervised Clustering driven by Supervised Learning [2.133032470368051]
Subtype Discoveryは、データセットの解釈可能で一貫性のあるサブ部分を見つけることで構成される。
UCSL (Unsupervised Clustering driven by Supervised Learning) という汎用的な期待最大化アンサンブルフレームワークを提案する。
我々の手法は汎用的であり、任意のクラスタリング手法を統合することができ、バイナリ分類と回帰の両方によって駆動することができる。
論文 参考訳(メタデータ) (2021-07-05T12:55:13Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Robust spectral clustering using LASSO regularization [0.0]
本稿では,ブロックモデルと密接な関係を持つ新しいランダムモデルを用いて,スペクトルクラスタリングの一種である1スペクトルクラスタリングを提案する。
その目標は、グラフの自然な構造を明らかにする1の最小化問題のスパース固有基底解を促進することである。
論文 参考訳(メタデータ) (2020-04-08T07:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。