論文の概要: Automatic Parameter Selection for Non-Redundant Clustering
- arxiv url: http://arxiv.org/abs/2312.11952v1
- Date: Tue, 19 Dec 2023 08:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:25:16.371786
- Title: Automatic Parameter Selection for Non-Redundant Clustering
- Title(参考訳): 非冗長クラスタリングのためのパラメータ自動選択
- Authors: Collin Leiber and Dominik Mautz and Claudia Plant and Christian B\"ohm
- Abstract要約: 高次元データセットは、しばしば異なる部分空間に複数の意味のあるクラスタリングを含む。
本稿では,サブスペース当たりのサブスペース数やクラスタ数を自動的に検出するフレームワークを提案する。
また,各部分空間の外れ値を検出するエンコーディング戦略も導入している。
- 参考スコア(独自算出の注目度): 11.68971888446462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional datasets often contain multiple meaningful clusterings in
different subspaces. For example, objects can be clustered either by color,
weight, or size, revealing different interpretations of the given dataset. A
variety of approaches are able to identify such non-redundant clusterings.
However, most of these methods require the user to specify the expected number
of subspaces and clusters for each subspace. Stating these values is a
non-trivial problem and usually requires detailed knowledge of the input
dataset. In this paper, we propose a framework that utilizes the Minimum
Description Length Principle (MDL) to detect the number of subspaces and
clusters per subspace automatically. We describe an efficient procedure that
greedily searches the parameter space by splitting and merging subspaces and
clusters within subspaces. Additionally, an encoding strategy is introduced
that allows us to detect outliers in each subspace. Extensive experiments show
that our approach is highly competitive to state-of-the-art methods.
- Abstract(参考訳): 高次元データセットは、しばしば異なる部分空間に複数の有意義なクラスタリングを含む。
例えば、オブジェクトは色、重み、サイズによってクラスタ化され、与えられたデータセットの異なる解釈が明らかになる。
様々なアプローチにより、そのような非冗長なクラスタリングを特定できる。
しかし、これらのメソッドのほとんどは、各サブスペースに対して期待されるサブスペースとクラスタの数を指定する必要がある。
これらの値を述べることは自明な問題であり、通常、入力データセットの詳細な知識を必要とする。
本稿では,最小記述長原理(MDL)を用いて,サブスペース当たりのサブスペース数やクラスタ数を自動的に検出するフレームワークを提案する。
本稿では,部分空間とクラスタを分割・融合することにより,パラメータ空間をゆるやかに探索する効率的な手順について述べる。
さらに、各部分空間の外れ値を検出するエンコーディング戦略も導入されています。
広範な実験により,我々のアプローチは最先端の手法と高い競合性を示している。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Inv-SENnet: Invariant Self Expression Network for clustering under
biased data [17.25929452126843]
本研究では,各サブ空間におけるデータポイントのクラスタ化を学習しながら,不要な属性(バイアス)を共同で除去する新しいフレームワークを提案する。
合成および実世界のデータセットに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-11-13T01:19:06Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Enriched Robust Multi-View Kernel Subspace Clustering [5.770309971945476]
サブスペースクラスタリングは、下位の低次元のサブスペースを見つけ、データポイントを正しくクラスタ化する。
既存の方法の多くは2つの重大な問題に悩まされている。
本稿では,新しいマルチビューサブスペースクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T03:06:24Z) - Analysis of Sparse Subspace Clustering: Experiments and Random
Projection [0.0]
クラスタリングは、顔クラスタリング、植物分類、イメージセグメンテーション、文書分類など、多くの領域で使われているテクニックである。
Sparse Subspace Clustering(スパース・サブスペース・クラスタリング)と呼ばれる強力なクラスタリングアルゴリズムを解析する。
本稿では,本手法を用いて実験を行い,スパース部分空間クラスタリングを行うために必要な計算時間を削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T23:55:53Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - A local approach to parameter space reduction for regression and
classification tasks [0.0]
そこで本研究では, クラスタリング手法を用いて, アクティブ部分空間のシナジーを探索する, ローカルアクティブ部分空間 (LAS) と呼ばれる新しい手法を提案する。
LASは、サロゲートモデリングに取り組んでいるコミュニティにとって特に有用である。
論文 参考訳(メタデータ) (2021-07-22T18:06:04Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。