論文の概要: Learning-Augmented K-Means Clustering Using Dimensional Reduction
- arxiv url: http://arxiv.org/abs/2401.03198v1
- Date: Sat, 6 Jan 2024 12:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:47:47.358221
- Title: Learning-Augmented K-Means Clustering Using Dimensional Reduction
- Title(参考訳): 次元還元を用いた学習強化K平均クラスタリング
- Authors: Issam K.O Jabari, Shofiyah, Pradiptya Kahvi S, Novi Nur Putriwijaya,
and Novanto Yudistira
- Abstract要約: 主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
- 参考スコア(独自算出の注目度): 1.7243216387069678
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Learning augmented is a machine learning concept built to improve the
performance of a method or model, such as enhancing its ability to predict and
generalize data or features, or testing the reliability of the method by
introducing noise and other factors. On the other hand, clustering is a
fundamental aspect of data analysis and has long been used to understand the
structure of large datasets. Despite its long history, the k-means algorithm
still faces challenges. One approach, as suggested by Ergun et al,is to use a
predictor to minimize the sum of squared distances between each data point and
a specified centroid. However, it is known that the computational cost of this
algorithm increases with the value of k, and it often gets stuck in local
minima. In response to these challenges, we propose a solution to reduce the
dimensionality of the dataset using Principal Component Analysis (PCA). It is
worth noting that when using k values of 10 and 25, the proposed algorithm
yields lower cost results compared to running it without PCA. "Principal
component analysis (PCA) is the problem of fitting a low-dimensional affine
subspace to a set of data points in a high-dimensional space. PCA is
well-established in the literature and has become one of the most useful tools
for data modeling, compression, and visualization."
- Abstract(参考訳): learning augmentedは、データや特徴の予測と一般化能力の向上や、ノイズやその他の要因の導入による方法の信頼性テストなど、メソッドやモデルのパフォーマンス向上を目的とした、マシンラーニングのコンセプトである。
一方で、クラスタリングはデータ分析の基本的な側面であり、大規模データセットの構造を理解するために長い間使われてきました。
その長い歴史にもかかわらず、k-meansアルゴリズムはまだ課題に直面している。
ergunらによって提案された1つのアプローチは、各データポイントと特定センチュロイドの間の2乗距離の和を最小化する予測器を使用することである。
しかし、このアルゴリズムの計算コストは k の値とともに増加することが知られており、局所的な最小値に固定されることがしばしばある。
これらの課題に対応するために,主成分分析(PCA)を用いてデータセットの次元性を低減する手法を提案する。
10 と 25 の k 値を使用する場合,提案アルゴリズムは PCA を使わずに動作させるよりもコストが低いことに注意する必要がある。
「主成分分析(PCA)は、高次元空間におけるデータポイントの集合に低次元アフィン部分空間を組み込む問題である。PCAは文献に精通しており、データモデリング、圧縮、可視化の最も有用なツールの1つとなっている。」
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - How to Use K-means for Big Data Clustering? [2.1165011830664677]
K-meansはEuclidean Minimum Sum-of-Squares Clustering (MSSC)モデルの下で最もシンプルで広く使われているアルゴリズムである。
ビッグデータクラスタリングにK-means++アルゴリズムとK-means++アルゴリズムを用いる並列方式を提案する。
論文 参考訳(メタデータ) (2022-04-14T08:18:01Z) - A Linearly Convergent Algorithm for Distributed Principal Component
Analysis [12.91948651812873]
本稿では,1時間スケール分散pcaアルゴリズムである分散sanger's algorithm(dsa)を提案する。
提案アルゴリズムは真の解の近傍に線形収束することを示した。
論文 参考訳(メタデータ) (2021-01-05T00:51:14Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Principal Ellipsoid Analysis (PEA): Efficient non-linear dimension
reduction & clustering [9.042239247913642]
本稿では,データとより柔軟なクラスタ形状の非線形関係を実現することにより,PCAとk平均の改善に焦点を当てる。
鍵となる貢献は、PCAに代わる単純で効率的な代替品を定義する、PEA(Principal Analysis)の新しいフレームワークである。
さまざまな実際のデータクラスタリングアプリケーションにおいて、PEAは単純なデータセットのためのk-meansと同様に機能し、より複雑な設定でパフォーマンスを劇的に改善する。
論文 参考訳(メタデータ) (2020-08-17T06:25:50Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。