論文の概要: Discriminative Similarity for Data Clustering
- arxiv url: http://arxiv.org/abs/2109.08675v1
- Date: Fri, 17 Sep 2021 17:56:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:34:50.677289
- Title: Discriminative Similarity for Data Clustering
- Title(参考訳): データクラスタリングにおける識別的類似性
- Authors: Yingzhen Yang, Ping Li
- Abstract要約: 類似性に基づくクラスタリング手法は、データ間のペアの類似性に応じて、データをクラスタに分離する。
データクラスタリングの識別類似性を学習する新しい手法であるCDS(Clustering by Discriminative similarity)を提案する。
- 参考スコア(独自算出の注目度): 22.067254105193136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Similarity-based clustering methods separate data into clusters according to
the pairwise similarity between the data, and the pairwise similarity is
crucial for their performance. In this paper, we propose Clustering by
Discriminative Similarity (CDS), a novel method which learns discriminative
similarity for data clustering. CDS learns an unsupervised similarity-based
classifier from each data partition, and searches for the optimal partition of
the data by minimizing the generalization error of the learnt classifiers
associated with the data partitions. By generalization analysis via Rademacher
complexity, the generalization error bound for the unsupervised
similarity-based classifier is expressed as the sum of discriminative
similarity between the data from different classes. It is proved that the
derived discriminative similarity can also be induced by the integrated squared
error bound for kernel density classification. In order to evaluate the
performance of the proposed discriminative similarity, we propose a new
clustering method using a kernel as the similarity function, CDS via
unsupervised kernel classification (CDSK), with its effectiveness demonstrated
by experimental results.
- Abstract(参考訳): 類似度に基づくクラスタリング手法は、データ間のペアの類似度に応じて、データをクラスタに分離する。
本稿では,データクラスタリングにおける識別的類似性を学ぶ新しい手法である判別的類似性(cds)によるクラスタリングを提案する。
CDSは、各データパーティションから教師なし類似性に基づく分類器を学習し、データパーティションに関連する学習された分類器の一般化誤差を最小限にして、データの最適分割を探索する。
ラデマッハ複雑性による一般化解析により、教師なし類似性に基づく分類器の一般化誤差は、異なるクラスのデータ間の識別的類似性の和として表される。
導出した識別的類似性は、カーネル密度分類のための統合二乗誤差によっても引き起こせることが証明された。
提案する識別的類似性の性能を評価するために, カーネルを類似関数として用いた新たなクラスタリング法, 教師なしカーネル分類(CDSK)によるCDSを提案する。
関連論文リスト
- Cluster-Aware Similarity Diffusion for Instance Retrieval [64.40171728912702]
拡散に基づく再ランク付け(diffusion-based re-level)は、隣り合うグラフで類似性の伝播を実行することで、インスタンスを検索する一般的な方法である。
本稿では,新しいクラスタ・アウェア類似性(CAS)拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:19:50Z) - Interpretable Clustering with the Distinguishability Criterion [0.4419843514606336]
本稿では,特定クラスタの分離可能性の定量化と推定クラスタ構成の検証を行うために,分散可能性基準と呼ばれるグローバルな基準を提案する。
本稿では、分散可能性基準と多くの一般的なクラスタリング手順を統合した損失関数に基づく計算フレームワークを提案する。
シミュレーション研究および実データアプリケーションに基づく包括的データ解析の結果とともに,これらの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-24T16:38:15Z) - Spectral Clustering of Categorical and Mixed-type Data via Extra Graph
Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。
データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。
この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文 参考訳(メタデータ) (2024-03-08T20:49:49Z) - DCSI -- An improved measure of cluster separability based on separation and connectedness [0.0]
あるデータセットのクラスラベルが意味のあるクラスタに対応するかどうかは、実世界のデータセットを用いたクラスタリングアルゴリズムの評価に不可欠である。
密度に基づくクラスタリングにおける分離性の中心的な側面は、クラス間の分離とクラス内の連結性である。
新たに開発された尺度 (density cluster separability index, DCSI) は、これらの2つの特性を定量化することを目的としており、CVIとしても使用できる。
論文 参考訳(メタデータ) (2023-10-19T15:01:57Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Contrastive Fine-grained Class Clustering via Generative Adversarial
Networks [9.667133604169829]
コントラスト学習を適用することでInfoGANのカテゴリ推論能力を活用する手法であるC3-GANを紹介する。
C3-GANは4つのきめ細かいベンチマークデータセットで最先端のクラスタリング性能を達成した。
論文 参考訳(メタデータ) (2021-12-30T08:57:11Z) - Shift of Pairwise Similarities for Data Clustering [7.462336024223667]
正規化項がクラスタの2乗サイズの和である場合を考察し、ペアの類似性の適応正規化に一般化する。
これは、ペアの類似性を(適切に)シフトさせ、それらのうちのいくつかを負にする可能性がある。
そこで我々は,新しいクラスタリング問題を解くために,高速な理論的収束率を持つ効率的な局所探索最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-25T16:55:07Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Contrastive Clustering [57.71729650297379]
本稿では,インスタンスレベルのコントラスト学習を明示的に行うContrastive Clustering (CC)を提案する。
特にCCは、CIFAR-10(CIFAR-100)データセット上で0.705(0.431)のNMIを達成しており、最高のベースラインと比較して最大19%(39%)のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-09-21T08:54:40Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。