論文の概要: Interpretable label-free self-guided subspace clustering
- arxiv url: http://arxiv.org/abs/2411.17291v1
- Date: Tue, 26 Nov 2024 10:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:36:35.225722
- Title: Interpretable label-free self-guided subspace clustering
- Title(参考訳): 解釈可能なラベルフリー自己誘導サブスペースクラスタリング
- Authors: Ivica Kopriva,
- Abstract要約: 多数部分空間クラスタリング(SC)アルゴリズムは1つ以上のハイパーパラメータに依存しており、高いクラスタリング性能を達成するためにはSCアルゴリズムを慎重に調整する必要がある。
我々は,精度 (ACC) や正規化相互情報 (NMI) などのクラスタリング品質指標を用いたラベル非依存HPOの新しい手法を提案する。
本手法は,複数のシングルビューおよびマルチビューSCアルゴリズムを用いて,達成された性能を,桁,顔,オブジェクトを表す6つのデータセットで比較する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Majority subspace clustering (SC) algorithms depend on one or more hyperparameters that need to be carefully tuned for the SC algorithms to achieve high clustering performance. Hyperparameter optimization (HPO) is often performed using grid-search, assuming that some labeled data is available. In some domains, such as medicine, this assumption does not hold true in many cases. One avenue of research focuses on developing SC algorithms that are inherently free of hyperparameters. For hyperparameters-dependent SC algorithms, one approach to label-independent HPO tuning is based on internal clustering quality metrics (if available), whose performance should ideally match that of external (label-dependent) clustering quality metrics. In this paper, we propose a novel approach to label-independent HPO that uses clustering quality metrics, such as accuracy (ACC) or normalized mutual information (NMI), that are computed based on pseudo-labels obtained from the SC algorithm across a predefined grid of hyperparameters. Assuming that ACC (or NMI) is a smooth function of hyperparameter values it is possible to select subintervals of hyperparameters. These subintervals are then iteratively further split into halves or thirds until a relative error criterion is satisfied. In principle, the hyperparameters of any SC algorithm can be tuned using the proposed method. We demonstrate this approach on several single- and multi-view SC algorithms, comparing the achieved performance with their oracle versions across six datasets representing digits, faces and objects. The proposed method typically achieves clustering performance that is 5% to 7% lower than that of the oracle versions. We also make our proposed method interpretable by visualizing subspace bases, which are estimated from the computed clustering partitions. This aids in the initial selection of the hyperparameter search space.
- Abstract(参考訳): 多数部分空間クラスタリング(SC)アルゴリズムは1つ以上のハイパーパラメータに依存しており、高いクラスタリング性能を達成するためにはSCアルゴリズムを慎重に調整する必要がある。
ハイパーパラメータ最適化(HPO)は、ラベル付きデータが利用可能であると仮定してグリッドサーチを用いて実行されることが多い。
医学などの分野では、この仮定が当てはまらない場合が多い。
研究の道の1つは、本質的にハイパーパラメータを含まないSCアルゴリズムの開発に焦点が当てられている。
ハイパーパラメータ依存のSCアルゴリズムでは、ラベルに依存しないHPOチューニングの1つのアプローチは、内部クラスタリング品質指標(利用可能であれば)に基づいており、そのパフォーマンスは外部(ラベルに依存した)クラスタリング品質指標と理想的に一致すべきである。
本稿では、SCアルゴリズムから得られた擬似ラベルに基づいて、予め定義されたハイパーパラメータの格子をまたいで計算される精度(ACC)や正規化相互情報(NMI)などのクラスタリング品質指標を利用するラベル非依存HPOの新しい手法を提案する。
ACC(あるいはNMI)がハイパーパラメータ値の滑らかな関数であると仮定すると、ハイパーパラメータのサブインターバルを選択することができる。
これらのサブインターバルは、相対誤差基準が満たされるまで、繰り返してハーフまたは3分の1に分割される。
原則として,提案手法を用いて任意のSCアルゴリズムのハイパーパラメータを調整できる。
本手法は,複数のシングルビューおよびマルチビューSCアルゴリズムを用いて,達成された性能を,桁,顔,オブジェクトを表す6つのデータセットで比較する。
提案手法は典型的には、オラクルバージョンよりも5%から7%低いクラスタリング性能を実現する。
また,計算されたクラスタリング分割から推定したサブスペースベースを可視化することで,提案手法を解釈する。
これにより、ハイパーパラメータ検索空間の初期選択が容易になる。
関連論文リスト
- Subspace Clustering in Wavelet Packets Domain [1.3812010983144802]
サブスペースクラスタリング(SC)アルゴリズムは、サブスペースモデルを用いて、サブスペースが描画されるサブスペースに応じてデータポイントをクラスタリングする。
サブスペースの分離性とノイズに対する堅牢性を改善するために,ウェーブレットパケット(WP)ベースの変換領域サブスペースクラスタリングを提案する。
論文 参考訳(メタデータ) (2024-06-06T07:49:11Z) - MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - Superclustering by finding statistically significant separable groups of
optimal gaussian clusters [0.0]
本稿では,BIC基準の観点から,最適なデータセットをグループ化することで,データセットをクラスタリングするアルゴリズムを提案する。
このアルゴリズムの重要な利点は、既に訓練済みのクラスタに基づいて、新しいデータの正しいスーパークラスタを予測する能力である。
論文 参考訳(メタデータ) (2023-09-05T23:49:46Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Applying Semi-Automated Hyperparameter Tuning for Clustering Algorithms [0.0]
本研究では,クラスタリング問題に対する半自動ハイパーパラメータチューニングのためのフレームワークを提案する。
グリッド検索を使用して一連のグラフを開発し、メトリクスを解釈しやすくし、より効率的なドメイン固有評価に使用できる。
予備的な結果は、内部メトリクスが、開発されたクラスタのセマンティックな品質をキャプチャできないことを示している。
論文 参考訳(メタデータ) (2021-08-25T05:48:06Z) - Cluster Representatives Selection in Non-Metric Spaces for Nearest
Prototype Classification [4.176752121302988]
本稿では,オブジェクトの小さいが代表的なサブセットをクラスタのプロトタイプとして選択する新しい手法であるCRSを提案する。
NN-Descentアルゴリズムにより生成された各クラスタの類似度グラフ表現を活用することにより、代表者のメモリと計算効率のよい選択が可能となる。
CRSはグラフベースのアプローチのため、任意の計量空間や非計量空間で使用することができる。
論文 参考訳(メタデータ) (2021-07-03T04:51:07Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z) - A Centroid Auto-Fused Hierarchical Fuzzy c-Means Clustering [30.709797128259236]
CAF-HFCM(Centroid Auto-Fused Hierarchical Fuzzy c-means Method)
本稿では,Centroid Auto-Fused Hierarchical Fuzzy c-means法(CAF-HFCM)を提案する。
CAF-HFCM法はFCMの様々な変種に容易に拡張できる。
論文 参考訳(メタデータ) (2020-04-27T12:59:22Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。