論文の概要: GBSK: Skeleton Clustering via Granular-ball Computing and Multi-Sampling for Large-Scale Data
- arxiv url: http://arxiv.org/abs/2509.23742v1
- Date: Sun, 28 Sep 2025 08:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.415538
- Title: GBSK: Skeleton Clustering via Granular-ball Computing and Multi-Sampling for Large-Scale Data
- Title(参考訳): GBSK: 大規模データのためのグラニュラーボールコンピューティングとマルチサンプリングによるスケルトンクラスタリング
- Authors: Yewang Chen, Junfeng Li, Shuyin Xia, Qinghong Lai, Xinbo Gao, Guoyin Wang, Dongdong Cheng, Yi Liu, Yi Wang,
- Abstract要約: 本稿では,大規模データセットのクラスタリング処理を行うために,GBSKというスケーラブルなスケルトンクラスタリングアルゴリズムを提案する。
データセットのマルチサンプリングと多粒度グラニュラーボールの構築により、GBSKは徐々に統計的「骨格」を発見
さらに,ユーザビリティの向上と現実シナリオへの展開を容易にするため,パラメータ設定を簡略化した適応型AGBSKを導入する。
- 参考スコア(独自算出の注目度): 62.363178614776295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To effectively handle clustering task for large-scale datasets, we propose a novel scalable skeleton clustering algorithm, namely GBSK, which leverages the granular-ball technique to capture the underlying structure of data. By multi-sampling the dataset and constructing multi-grained granular-balls, GBSK progressively uncovers a statistical "skeleton" -- a spatial abstraction that approximates the essential structure and distribution of the original data. This strategy enables GBSK to dramatically reduce computational overhead while maintaining high clustering accuracy. In addition, we introduce an adaptive version, AGBSK, with simplified parameter settings to enhance usability and facilitate deployment in real-world scenarios. Extensive experiments conducted on standard computing hardware demonstrate that GBSK achieves high efficiency and strong clustering performance on large-scale datasets, including one with up to 100 million instances across 256 dimensions. Our implementation and experimental results are available at: https://github.com/XFastDataLab/GBSK/.
- Abstract(参考訳): 大規模データセットのクラスタリングタスクを効果的に処理するために,GBSKと呼ばれる新しいスケーラブルなスケルトンクラスタリングアルゴリズムを提案する。
データセットをマルチサンプリングし、多粒度のグラニュラーボールを構築することで、GBSKは徐々に、元のデータの本質的構造と分布を近似する空間的抽象化である統計的な「骨格」を明らかにする。
この戦略により、GBSKは高いクラスタリング精度を維持しながら、計算オーバーヘッドを劇的に削減できる。
さらに,ユーザビリティの向上と現実シナリオへの展開を容易にするため,パラメータ設定を簡略化した適応型AGBSKを導入する。
標準コンピューティングハードウェア上で実施された大規模な実験により、GBSKは256次元の最大1億インスタンスを含む大規模なデータセット上で、高い効率と強力なクラスタリング性能を実現することが示された。
私たちの実装と実験結果は、https://github.com/XFastDataLab/GBSK/.comで利用可能です。
関連論文リスト
- Scalable Context-Preserving Model-Aware Deep Clustering for Hyperspectral Images [51.95768218975529]
ハイパースペクトル画像(HSI)の教師なし解析にサブスペースクラスタリングが広く採用されている。
近年のモデル対応深層空間クラスタリング手法では、O(n2)の複雑性を持つ自己表現行列の計算とスペクトルクラスタリングを含む2段階のフレームワークを用いることが多い。
本稿では,HSIクラスタリングを効率的に行うために,局所構造と非局所構造を協調的にキャプチャする,ベース表現に基づく拡張性のあるコンテキスト保存深層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T16:43:09Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - CoHiRF: A Scalable and Interpretable Clustering Framework for High-Dimensional Data [0.30723404270319693]
課題を効果的に解決する新しいクラスタリング手法であるCoHiRF(Consensus Hierarchical Random Feature)を提案する。
CoHiRFは、ランダムな特徴選択を利用してノイズと次元効果を緩和し、縮小された特徴空間にK平均クラスタリングを繰り返し適用し、全一致のコンセンサス基準で結果を組み合わせる。
CoHiRFはK-Meansに匹敵する実行時間で計算効率が高く、大規模データセットにスケーラブルで、SC-SRGF、HDBSCAN、OPTICSといった最先端の手法に対して堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-02-01T09:38:44Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [112.40071212468843]
3D Gaussian Splatting (3DGS)は多くの視覚タスクにおいて3D表現の事実上の方法となっている。
一般的なShapeNet, ModelNet, averseを用いて3DGSの大規模データセットを構築した。
本稿では,ガウスパラメータからの表現学習の独特な利点を浮き彫りにしたガウスMAEを紹介する。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - Toward Efficient and Incremental Spectral Clustering via Parametric
Spectral Clustering [2.44755919161855]
スペクトルクラスタリングは、非線形分離可能なデータを効果的にクラスタリングするための一般的な方法である。
本稿では、パラメトリックスペクトルクラスタリング(PSC)と呼ばれる新しい手法を提案する。
PSCは、ビッグデータとリアルタイムシナリオに関連する課題に対処する。
論文 参考訳(メタデータ) (2023-11-14T01:26:20Z) - Variational Auto Encoder Gradient Clustering [0.0]
近年,ディープニューラルネットワークモデルを用いたクラスタリングが広く研究されている。
本稿では、より良いクラスタリングを実現するために確率関数勾配上昇を使用してデータを処理する方法を検討する。
DBSCANクラスタリングアルゴリズムに基づいて,データに適したクラスタ数を調べるための簡便かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T08:00:36Z) - k-Factorization Subspace Clustering [12.18340575383456]
サブスペースクラスタリングは、低次元部分空間の結合にあるデータをクラスタ化する。
本稿では,大規模サブスペースクラスタリングのためのk-Factorization Subspace Clustering (k-FSC) 法を提案する。
論文 参考訳(メタデータ) (2020-12-08T10:34:21Z) - Graph Convolutional Subspace Clustering: A Robust Subspace Clustering
Framework for Hyperspectral Image [6.332208511335129]
本稿では,HSIクラスタリングのための新しいサブスペースクラスタリングフレームワークであるGraph Convolutional Subspace Clustering (GCSC)を提案する。
具体的には、このフレームワークはデータの自己表現性を非ユークリッド領域に再キャストする。
従来のサブスペースクラスタリングモデルはユークリッドデータを用いたフレームワークの特別な形態であることを示す。
論文 参考訳(メタデータ) (2020-04-22T10:09:19Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。