論文の概要: UCSL : A Machine Learning Expectation-Maximization framework for
Unsupervised Clustering driven by Supervised Learning
- arxiv url: http://arxiv.org/abs/2107.01988v1
- Date: Mon, 5 Jul 2021 12:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:27:06.374467
- Title: UCSL : A Machine Learning Expectation-Maximization framework for
Unsupervised Clustering driven by Supervised Learning
- Title(参考訳): UCSL : 教師なしクラスタリングのための機械学習予測最大化フレームワーク
- Authors: Robin Louiset and Pietro Gori and Benoit Dufumier and Josselin Houenou
and Antoine Grigis and Edouard Duchesnay
- Abstract要約: Subtype Discoveryは、データセットの解釈可能で一貫性のあるサブ部分を見つけることで構成される。
UCSL (Unsupervised Clustering driven by Supervised Learning) という汎用的な期待最大化アンサンブルフレームワークを提案する。
我々の手法は汎用的であり、任意のクラスタリング手法を統合することができ、バイナリ分類と回帰の両方によって駆動することができる。
- 参考スコア(独自算出の注目度): 2.133032470368051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subtype Discovery consists in finding interpretable and consistent sub-parts
of a dataset, which are also relevant to a certain supervised task. From a
mathematical point of view, this can be defined as a clustering task driven by
supervised learning in order to uncover subgroups in line with the supervised
prediction. In this paper, we propose a general Expectation-Maximization
ensemble framework entitled UCSL (Unsupervised Clustering driven by Supervised
Learning). Our method is generic, it can integrate any clustering method and
can be driven by both binary classification and regression. We propose to
construct a non-linear model by merging multiple linear estimators, one per
cluster. Each hyperplane is estimated so that it correctly discriminates - or
predict - only one cluster. We use SVC or Logistic Regression for
classification and SVR for regression. Furthermore, to perform cluster analysis
within a more suitable space, we also propose a dimension-reduction algorithm
that projects the data onto an orthonormal space relevant to the supervised
task. We analyze the robustness and generalization capability of our algorithm
using synthetic and experimental datasets. In particular, we validate its
ability to identify suitable consistent sub-types by conducting a
psychiatric-diseases cluster analysis with known ground-truth labels. The gain
of the proposed method over previous state-of-the-art techniques is about +1.9
points in terms of balanced accuracy. Finally, we make codes and examples
available in a scikit-learn-compatible Python package at
https://github.com/neurospin-projects/2021_rlouiset_ucsl
- Abstract(参考訳): サブタイプ発見(subtype discovery)は、データセットの解釈可能かつ一貫性のある部分を見つけることで成り立っている。
数学的観点からは、これは教師付き学習によって駆動されるクラスタリングタスクとして定義でき、教師付き予測に沿ってサブグループを明らかにすることができる。
本稿では,UCSL (Unsupervised Clustering driven by Supervised Learning) と題する一般的な期待最大化アンサンブルフレームワークを提案する。
この手法は汎用的であり,任意のクラスタリング手法を統合でき,二進分類と回帰の両方によって駆動できる。
本稿では,クラスタ毎に複数の線形推定器をマージして非線形モデルを構築することを提案する。
各超平面は正確に1つのクラスターのみを判別または予測するように推定される。
分類にはSVCまたはロジスティック回帰、回帰にはSVRを使用します。
さらに,より適切な空間内でクラスタ解析を行うために,教師ありタスクに関連する正規直交空間にデータを投影する次元還元アルゴリズムを提案する。
合成および実験データセットを用いて,アルゴリズムの堅牢性と一般化能力を解析する。
特に,既知の接地ラベルを用いた精神医学的ダイザスクラスター分析を行い,適切な一貫性のあるサブタイプを同定する能力を検証する。
従来の最先端技術に比較して提案手法の精度は+1.9ポイント程度である。
最後に、scikit-learn互換のpythonパッケージでコードとサンプルをhttps://github.com/neurospin-projects/2021_rlouiset_ucslで利用可能にする。
関連論文リスト
- Can an unsupervised clustering algorithm reproduce a categorization system? [1.0485739694839669]
ラベル付きデータセットにおいて、教師なしクラスタリングが真理クラスを再現できるかどうかを検討する。
成功は特徴選択と選択した距離測定に依存することを示す。
論文 参考訳(メタデータ) (2024-08-19T18:27:14Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - A Generalized Framework for Predictive Clustering and Optimization [18.06697544912383]
クラスタリングは強力で広く使われているデータサイエンスツールです。
本稿では,予測クラスタリングのための一般化最適化フレームワークを定義する。
また,大域的最適化のためにMILP(mixed-integer linear programming)を利用する共同最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T19:56:51Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Learning Self-Expression Metrics for Scalable and Inductive Subspace
Clustering [5.587290026368626]
サブスペースクラスタリングは、高次元データをクラスタリングするための最先端のアプローチとして確立されている。
本研究では,シアムニューラルネットワークアーキテクチャを用いて,サブスペース親和性関数を学習するための新しい距離学習手法を提案する。
我々のモデルは、パラメータの一定数とメモリフットプリントの恩恵を受けており、かなり大きなデータセットにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-27T15:40:12Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。