論文の概要: Accelerate Support Vector Clustering via Spectrum-Preserving Data
Compression?
- arxiv url: http://arxiv.org/abs/2304.09868v1
- Date: Wed, 19 Apr 2023 01:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 15:34:32.141411
- Title: Accelerate Support Vector Clustering via Spectrum-Preserving Data
Compression?
- Title(参考訳): スペクトル保存データ圧縮による高速化支援ベクトルクラスタリング
- Authors: Yuxuan Song, Yongyu Wang
- Abstract要約: 我々は、元のデータセットを少数のスペクトル的に代表される集約されたデータポイントに圧縮する。
次に、圧縮データセット上で標準サポートベクタークラスタリングを行う。
圧縮されたデータセットのクラスタリング結果をマッピングして、元のデータセット内のクラスタを検出する。
- 参考スコア(独自算出の注目度): 5.825190876052149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Support vector clustering is an important clustering method. However, it
suffers from a scalability issue due to its computational expensive cluster
assignment step. In this paper we accelertate the support vector clustering via
spectrum-preserving data compression. Specifically, we first compress the
original data set into a small amount of spectrally representative aggregated
data points. Then, we perform standard support vector clustering on the
compressed data set. Finally, we map the clustering results of the compressed
data set back to discover the clusters in the original data set. Our extensive
experimental results on real-world data set demonstrate dramatically speedups
over standard support vector clustering without sacrificing clustering quality.
- Abstract(参考訳): サポートベクタークラスタリングは重要なクラスタリング手法である。
しかし、計算コストのかかるクラスタ割り当てステップのためにスケーラビリティの問題に悩まされている。
本稿では,スペクトル保存データ圧縮によるサポートベクタークラスタリングを認証する。
具体的には、まず最初のデータセットを少数のスペクトル的に代表される集約されたデータポイントに圧縮する。
次に,圧縮データセット上で標準サポートベクトルクラスタリングを行う。
最後に、圧縮されたデータセットのクラスタリング結果をマッピングして、元のデータセット内のクラスタを検出する。
実世界のデータセットに関する広範な実験結果は、クラスタリングの品質を犠牲にすることなく、標準サポートベクタークラスタリングよりも劇的にスピードアップすることを示している。
関連論文リスト
- Accelerating UMAP for Large-Scale Datasets Through Spectral Coarsening [2.1937382384136637]
提案手法は,本質的な多様体構造を保ちながら,データセットのサイズを大幅に削減する。
USPSのような実世界のデータセットの実験では、埋め込み忠実さを損なうことなく、実質的なデータ削減を実現する方法の能力を実証している。
論文 参考訳(メタデータ) (2024-11-19T08:32:17Z) - Towards fast DBSCAN via Spectrum-Preserving Data Compression [2.1937382384136637]
本稿では,スペクトルデータ圧縮を用いてDBSCANを大幅に高速化する新しい手法を提案する。
提案手法は,本質的なクラスタリング特性を保ちながら,データセットのサイズを5倍に縮小する。
USPSのような実世界のデータセットの実験では、クラスタリング性能を維持しながら、この劇的なデータサイズ削減を実現する方法の能力を実証している。
論文 参考訳(メタデータ) (2024-11-18T09:46:45Z) - Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Settling Time vs. Accuracy Tradeoffs for Clustering Big Data [7.932425355668529]
大規模データセット上でのk-meansおよびk-medianクラスタリングの理論的および実用的な実行限界について検討する。
私たちのコードは公開されており、実験を再現するためのスクリプトがあります。
論文 参考訳(メタデータ) (2024-04-02T13:31:19Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Visual Cluster Separation Using High-Dimensional Sharpened
Dimensionality Reduction [65.80631307271705]
高次元シャープ化DR(HD-SDR)は、合成データセットと実世界のデータセットの両方で試験される。
提案手法は,高品質(品質指標による測定)を達成し,大規模高次元データを用いて計算的に精度よくスケールする。
具体的な応用を説明するため,近年の天文カタログにHD-SDRを適用した。
論文 参考訳(メタデータ) (2021-10-01T11:13:51Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。