論文の概要: Accelerate Support Vector Clustering via Spectrum-Preserving Data
Compression
- arxiv url: http://arxiv.org/abs/2304.09868v3
- Date: Sun, 14 May 2023 13:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 21:03:49.687124
- Title: Accelerate Support Vector Clustering via Spectrum-Preserving Data
Compression
- Title(参考訳): スペクトル保存データ圧縮による高速化支援ベクトルクラスタリング
- Authors: Yuxuan Song, Yongyu Wang
- Abstract要約: 提案手法は,まず圧縮されたデータセットを圧縮し,元のデータセットの鍵クラスタ特性を保ちながら計算する。
スペクトル圧縮されたデータセットは、ベクトルクラスタリングをサポートする高速で高品質なアルゴリズムの開発に活用される。
- 参考スコア(独自算出の注目度): 5.825190876052149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel framework for accelerating support vector
clustering. The proposed method first computes much smaller compressed data
sets while preserving the key cluster properties of the original data sets
based on a novel spectral data compression approach. Then, the resultant
spectrally-compressed data sets are leveraged for the development of fast and
high quality algorithm for support vector clustering. We conducted extensive
experiments using real-world data sets and obtained very promising results. The
proposed method allows us to achieve 100X and 115X speedups over the state of
the art SVC method on the Pendigits and USPS data sets, respectively, while
achieving even better clustering quality. To the best of our knowledge, this
represents the first practical method for high-quality and fast SVC on
large-scale real-world data sets
- Abstract(参考訳): 本稿では,サポートベクトルクラスタリングを高速化する新しいフレームワークを提案する。
提案手法は,新しいスペクトルデータ圧縮手法に基づき,オリジナルデータセットのキークラスタ特性を維持しながら,より小さな圧縮データセットを最初に計算する。
得られたスペクトル圧縮データセットは,ベクトルクラスタリングをサポートする高速かつ高品質なアルゴリズムの開発に活用される。
実世界のデータセットを用いた広範な実験を行い,非常に有望な結果を得た。
提案手法により,Pendigits および USPS データセット上でのアート SVC 法の状態を,100X と 115X の高速化が可能となり,クラスタリング品質が向上した。
我々の知る限りでは、これは大規模な実世界のデータセットにおける高品質で高速なSVCのための最初の実用的な方法である。
関連論文リスト
- Fast and Scalable Semi-Supervised Learning for Multi-View Subspace Clustering [13.638434337947302]
FSSMSCは、既存のアプローチで一般的に見られる高い計算複雑性に対する新しいソリューションである。
この手法は、各データポイントを選択されたランドマークの疎線型結合として表現し、すべてのビューにまたがるコンセンサスアンカーグラフを生成する。
FSSMSCの有効性と効率は、様々なスケールの複数のベンチマークデータセットに対する広範な実験を通して検証される。
論文 参考訳(メタデータ) (2024-08-11T06:54:00Z) - Settling Time vs. Accuracy Tradeoffs for Clustering Big Data [7.932425355668529]
大規模データセット上でのk-meansおよびk-medianクラスタリングの理論的および実用的な実行限界について検討する。
私たちのコードは公開されており、実験を再現するためのスクリプトがあります。
論文 参考訳(メタデータ) (2024-04-02T13:31:19Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Toward Efficient and Incremental Spectral Clustering via Parametric
Spectral Clustering [2.44755919161855]
スペクトルクラスタリングは、非線形分離可能なデータを効果的にクラスタリングするための一般的な方法である。
本稿では、パラメトリックスペクトルクラスタリング(PSC)と呼ばれる新しい手法を提案する。
PSCは、ビッグデータとリアルタイムシナリオに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-11-14T01:26:20Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Improving Spectral Clustering Using Spectrum-Preserving Node Reduction [1.52292571922932]
我々は、スペクトル保存ノード還元を用いて固有分解を加速し、データセットの簡潔な表現を生成する。
実験の結果,最先端手法と比較してクラスタリング性能が劇的に向上した。
論文 参考訳(メタデータ) (2021-10-24T01:43:12Z) - Visual Cluster Separation Using High-Dimensional Sharpened
Dimensionality Reduction [65.80631307271705]
高次元シャープ化DR(HD-SDR)は、合成データセットと実世界のデータセットの両方で試験される。
提案手法は,高品質(品質指標による測定)を達成し,大規模高次元データを用いて計算的に精度よくスケールする。
具体的な応用を説明するため,近年の天文カタログにHD-SDRを適用した。
論文 参考訳(メタデータ) (2021-10-01T11:13:51Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。