論文の概要: Fast and Interpretable Consensus Clustering via Minipatch Learning
- arxiv url: http://arxiv.org/abs/2110.02388v1
- Date: Tue, 5 Oct 2021 22:39:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:33:47.497267
- Title: Fast and Interpretable Consensus Clustering via Minipatch Learning
- Title(参考訳): ミニパッチ学習による高速かつ解釈可能な合意クラスタリング
- Authors: Luqin Gan and Genevera I. Allen
- Abstract要約: IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering を開発した。
我々は、信頼性と計算コストの両面で改善された観測のための適応型サンプリング手法を開発した。
その結果,より正確で解釈可能なクラスタソリューションが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consensus clustering has been widely used in bioinformatics and other
applications to improve the accuracy, stability and reliability of clustering
results. This approach ensembles cluster co-occurrences from multiple
clustering runs on subsampled observations. For application to large-scale
bioinformatics data, such as to discover cell types from single-cell sequencing
data, for example, consensus clustering has two significant drawbacks: (i)
computational inefficiency due to repeatedly applying clustering algorithms,
and (ii) lack of interpretability into the important features for
differentiating clusters. In this paper, we address these two challenges by
developing IMPACC: Interpretable MiniPatch Adaptive Consensus Clustering. Our
approach adopts three major innovations. We ensemble cluster co-occurrences
from tiny subsets of both observations and features, termed minipatches, thus
dramatically reducing computation time. Additionally, we develop adaptive
sampling schemes for observations, which result in both improved reliability
and computational savings, as well as adaptive sampling schemes of features,
which leads to interpretable solutions by quickly learning the most relevant
features that differentiate clusters. We study our approach on synthetic data
and a variety of real large-scale bioinformatics data sets; results show that
our approach not only yields more accurate and interpretable cluster solutions,
but it also substantially improves computational efficiency compared to
standard consensus clustering approaches.
- Abstract(参考訳): コンセンサスクラスタリングは、バイオインフォマティクスやその他の応用において、クラスタリング結果の正確性、安定性、信頼性を向上させるために広く利用されている。
このアプローチは、サブサンプリングされた観測に基づいて複数のクラスタリングからクラスタ共起をアンサンブルする。
例えば、シングルセルシークエンシングデータから細胞型を発見するなど、大規模バイオインフォマティクスデータへの適用には、コンセンサスクラスタリングには2つの大きな欠点がある。
(i)クラスタリングアルゴリズムの繰り返し適用による計算効率の低下、
(ii)クラスタを区別するための重要な特徴への解釈可能性の欠如。
本稿では, 解釈可能なミニパッチ適応コンセンサスクラスタリングであるimpaccを開発することで, これら2つの課題を解決する。
私たちのアプローチには3つの大きな革新があります。
ミニパッチと呼ばれる観測と特徴の両方の小さなサブセットからクラスタをアンサンブルし、計算時間を劇的に短縮する。
さらに,信頼性と計算量の削減を両立させる適応型サンプリングスキームと,クラスタを識別する最も関連性の高い特徴を迅速に学習することで,解釈可能な解法を導出する機能適応型サンプリングスキームを開発した。
本研究では, 合成データと実大規模バイオインフォマティクスデータセットについて検討し, 提案手法がより正確かつ解釈可能なクラスタソリューションをもたらすだけでなく, 標準的なコンセンサスクラスタリング手法と比較して計算効率を大幅に向上させることを示す。
関連論文リスト
- GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - Stable Cluster Discrimination for Deep Clustering [7.175082696240088]
ディープクラスタリングは、インスタンスの表現(つまり、表現学習)を最適化し、固有のデータ分散を探索することができる。
結合された目的は、すべてのインスタンスが一様機能に崩壊する、自明な解決策を意味する。
本研究では,1段階クラスタリングにおいて,教師あり学習における一般的な識別タスクが不安定であることを示す。
新規な安定クラスタ識別(SeCu)タスクを提案し、それに応じて新しいハードネス対応クラスタリング基準を得ることができる。
論文 参考訳(メタデータ) (2023-11-24T06:43:26Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Transductive Few-Shot Learning: Clustering is All You Need? [31.21306826132773]
そこで本研究では,プロトタイプをベースとした超越的数ショット学習の汎用的定式化について検討する。
提案手法は, 精度と最適化の観点から, 大きな問題にスケールアップしながら, 競争性能を向上する。
驚いたことに、私たちの一般的なモデルは、最先端の学習と比較して、すでに競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2021-06-16T16:14:01Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - reval: a Python package to determine best clustering solutions with
stability-based relative clustering validation [1.8129328638036126]
revalは、安定性ベースの相対クラスタリングバリデーションメソッドを活用して、最適なクラスタリングソリューションを決定するPythonパッケージである。
この研究は、教師付き学習を通じて、目に見えないデータのサブセットを複製するものとして、最高のクラスタリングソリューションを選択する安定性ベースの方法の開発を目的としている。
論文 参考訳(メタデータ) (2020-08-27T10:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。