論文の概要: An Approach Towards Learning K-means-friendly Deep Latent Representation
- arxiv url: http://arxiv.org/abs/2411.19496v1
- Date: Fri, 29 Nov 2024 06:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:50.420856
- Title: An Approach Towards Learning K-means-friendly Deep Latent Representation
- Title(参考訳): K-means親しみやすい深層表現学習への一アプローチ
- Authors: Debapriya Roy,
- Abstract要約: クラスタリングは、データマイニングにおける長年の問題領域である。
ディープニューラルネットワークの出現により、この問題に対する一般的なアプローチは、データを比較的低次元の潜在空間にマッピングすることである。
良く知られたセントロイドベースのクラスタリングアルゴリズムはK平均である。
- 参考スコア(独自算出の注目度): 0.6798775532273751
- License:
- Abstract: Clustering is a long-standing problem area in data mining. The centroid-based classical approaches to clustering mainly face difficulty in the case of high dimensional inputs such as images. With the advent of deep neural networks, a common approach to this problem is to map the data to some latent space of comparatively lower dimensions and then do the clustering in that space. Network architectures adopted for this are generally autoencoders that reconstruct a given input in the output. To keep the input in some compact form, the encoder in AE's learns to extract useful features that get decoded at the reconstruction end. A well-known centroid-based clustering algorithm is K-means. In the context of deep feature learning, recent works have empirically shown the importance of learning the representations and the cluster centroids together. However, in this aspect of joint learning, recently a continuous variant of K-means has been proposed; where the softmax function is used in place of argmax to learn the clustering and network parameters jointly using stochastic gradient descent (SGD). However, unlike K-means, where the input space stays constant, here the learning of the centroid is done in parallel to the learning of the latent space for every batch of data. Such batch updates disagree with the concept of classical K-means, where the clustering space remains constant as it is the input space itself. To this end, we propose to alternatively learn a clustering-friendly data representation and K-means based cluster centers. Experiments on some benchmark datasets have shown improvements of our approach over the previous approaches.
- Abstract(参考訳): クラスタリングは、データマイニングにおける長年の問題領域である。
遠心法に基づくクラスタリングの古典的アプローチは、画像のような高次元入力の場合、主に困難に直面している。
ディープニューラルネットワークの出現により、この問題に対する一般的なアプローチは、データを比較的低い次元の潜在空間にマッピングし、その空間でクラスタリングを行うことである。
このために採用されるネットワークアーキテクチャは、通常、出力の所定の入力を再構成するオートエンコーダである。
入力を何らかのコンパクトな形で保持するために、AEのエンコーダは、再構成終了時にデコードされる有用な特徴を抽出することを学ぶ。
良く知られたセントロイドベースのクラスタリングアルゴリズムはK平均である。
深い特徴学習の文脈において、最近の研究は、表現とクラスタセントロイドを一緒に学習することの重要性を実証的に示している。
しかし、この共同学習のこの側面において、最近K-meansの連続的な変種が提案されている。そこでは、確率勾配勾配(SGD)を用いてクラスタリングとネットワークパラメータを共同で学習するために、argmaxの代わりにソフトマックス関数が用いられる。
しかし、入力空間が一定であるK平均とは異なり、ここでは中心空間の学習は各バッチのデータに対する潜在空間の学習と平行に行われる。
このようなバッチ更新は、クラスタリング空間が入力空間自身であるように一定である古典的なK平均の概念とは一致しない。
そこで本研究では,クラスタリングに親しみやすいデータ表現とK平均クラスタセンタを学習する手法を提案する。
いくつかのベンチマークデータセットの実験では、以前のアプローチよりもアプローチの改善が示されています。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Fuzzy K-Means Clustering without Cluster Centroids [21.256564324236333]
ファジィK平均クラスタリングは教師なしデータ分析において重要な手法である。
本稿では,クラスタセントロイドへの依存を完全に排除する,ファジィテクストK-Meansクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-07T12:25:03Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Augmented Data as an Auxiliary Plug-in Towards Categorization of
Crowdsourced Heritage Data [2.609784101826762]
本稿では,データ拡張を補助プラグインとして導入することで,非効率なクラスタリング性能の問題を緩和する戦略を提案する。
我々は、深層クラスタリングのための新しいモデルとして初期特徴空間を構築するために、拡張データを用いた畳み込みオートエンコーダ(CAE)の変種を訓練する。
論文 参考訳(メタデータ) (2021-07-08T14:09:39Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - (k, l)-Medians Clustering of Trajectories Using Continuous Dynamic Time
Warping [57.316437798033974]
本研究では,トラジェクトリの集中型クラスタリングの問題について考察する。
我々はDTWの連続バージョンを距離測定として使用することを提案し、これをCDTW(Continuous dynamic time warping)と呼ぶ。
一連の軌道から中心を計算し、その後反復的に改善する実践的な方法を示す。
論文 参考訳(メタデータ) (2020-12-01T13:17:27Z) - Overcomplete Deep Subspace Clustering Networks [80.16644725886968]
4つのベンチマークデータセットの実験結果から,クラスタリング誤差の観点から,DSCや他のクラスタリング手法に対する提案手法の有効性が示された。
また,本手法は,最高の性能を得るために事前学習を中止する点にDSCほど依存せず,騒音にも頑健である。
論文 参考訳(メタデータ) (2020-11-16T22:07:18Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z) - Softmax-based Classification is k-means Clustering: Formal Proof,
Consequences for Adversarial Attacks, and Improvement through Centroid Based
Tailoring [3.0724051098062097]
我々は,k平均クラスタリングと,ソフトマックスアクティベーション層に基づくニューラルネットワークの予測の関連性を証明する。
ニューラルネットワークの最後の層におけるソフトマックス関数の代替として,Centroid Based Tailoringを提案する。
論文 参考訳(メタデータ) (2020-01-07T11:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。