論文の概要: Clustering Large Data Sets with Incremental Estimation of Low-density
Separating Hyperplanes
- arxiv url: http://arxiv.org/abs/2108.03442v1
- Date: Sat, 7 Aug 2021 12:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:47:34.500861
- Title: Clustering Large Data Sets with Incremental Estimation of Low-density
Separating Hyperplanes
- Title(参考訳): 低密度分離超平面のインクリメンタル推定による大規模データセットのクラスタリング
- Authors: David P. Hofmeyr
- Abstract要約: 教師なし文脈における低密度超平面分離器の効率的な取得法を提案する。
提案手法による実験により、関連するベンチマークと比較した場合、速度と精度の両面で非常に競争力があることが示された。
- 参考スコア(独自算出の注目度): 16.3460693863947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An efficient method for obtaining low-density hyperplane separators in the
unsupervised context is proposed. Low density separators can be used to obtain
a partition of a set of data based on their allocations to the different sides
of the separators. The proposed method is based on applying stochastic gradient
descent to the integrated density on the hyperplane with respect to a
convolution of the underlying distribution and a smoothing kernel. In the case
where the bandwidth of the smoothing kernel is decreased towards zero, the bias
of these updates with respect to the true underlying density tends to zero, and
convergence to a minimiser of the density on the hyperplane can be obtained. A
post-processing of the partition induced by a collection of low-density
hyperplanes yields an efficient and accurate clustering method which is capable
of automatically selecting an appropriate number of clusters. Experiments with
the proposed approach show that it is highly competitive in terms of both speed
and accuracy when compared with relevant benchmarks. Code to implement the
proposed approach is available in the form of an R package from
https://github.com/DavidHofmeyr/iMDH.
- Abstract(参考訳): 教師なし文脈における低密度超平面分離器の効率的な取得法を提案する。
低密度セパレータは、セパレータの異なる側への割り当てに基づいて、データの集合のパーティションを得るのに使うことができる。
提案手法は,基本分布と平滑化核の畳み込みに関して,超平面上の集積密度に確率的勾配降下を適用することに基づいている。
平滑化カーネルの帯域幅がゼロに向かって減少する場合には、真の基底密度に対するこれらの更新のバイアスがゼロとなる傾向にあり、超平面上の密度の最小値への収束が得られる。
低密度超平面の集まりによって引き起こされる分割の後処理は、適切な数のクラスターを自動的に選択できる効率的で正確なクラスタリング方法をもたらす。
提案手法による実験により、関連するベンチマークと比較した場合の速度と精度の両面で高い競争力を示す。
提案されたアプローチを実装するコードは、https://github.com/DavidHofmeyr/iMDHからRパッケージとして入手できる。
関連論文リスト
- Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - Spectral Clustering for Discrete Distributions [22.450518079181542]
伝統的に、離散分布(D2C)のクラスタリングは、Wasserstein Barycenter法を用いてアプローチされてきた。
本研究では, スペクトルクラスタリングと分布親和性尺度を組み合わせることで, バリセンタ法よりも精度が高く, 効率的であることを示す。
クラスタリング分布における手法の成功を理論的に保証する。
論文 参考訳(メタデータ) (2024-01-25T03:17:03Z) - DECWA : Density-Based Clustering using Wasserstein Distance [1.4132765964347058]
空間密度と確率的アプローチに基づく新しいクラスタリングアルゴリズムを提案する。
提案手法は, 様々なデータセットにおいて, 最先端の密度に基づくクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T11:10:08Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Density Ratio Estimation via Infinitesimal Classification [85.08255198145304]
そこで我々は, DRE-inftyを提案する。 DRE-inftyは, 密度比推定(DRE)を, より簡単なサブプロブレムに還元する手法である。
モンテカルロ法にインスパイアされ、中間ブリッジ分布の無限連続体を介して2つの分布の間を滑らかに補間する。
提案手法は,複雑な高次元データセット上での相互情報推定やエネルギーベースモデリングなどの下流タスクにおいて良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-22T06:26:29Z) - Density-Based Clustering with Kernel Diffusion [59.4179549482505]
単位$d$次元ユークリッド球のインジケータ関数に対応するナイーブ密度は、密度に基づくクラスタリングアルゴリズムで一般的に使用される。
局所分布特性と滑らかさの異なるデータに適応する新しいカーネル拡散密度関数を提案する。
論文 参考訳(メタデータ) (2021-10-11T09:00:33Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Tensor Laplacian Regularized Low-Rank Representation for Non-uniformly
Distributed Data Subspace Clustering [2.578242050187029]
低ランク表現(LRR)は、サブスペースクラスタリングにおけるデータポイントの局所性情報を破棄する。
本稿では,隣接ノードの変動数を容易にし,データの局所性情報を組み込むハイパーグラフモデルを提案する。
人工および実データを用いた実験により,提案手法の精度と精度が向上した。
論文 参考訳(メタデータ) (2021-03-06T08:22:24Z) - Local Graph Clustering with Network Lasso [90.66817876491052]
局所グラフクラスタリングのためのネットワークLasso法の統計的および計算的性質について検討する。
nLassoによって提供されるクラスタは、クラスタ境界とシードノードの間のネットワークフローを通じて、エレガントに特徴付けられる。
論文 参考訳(メタデータ) (2020-04-25T17:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。