論文の概要: Hierarchical Qualitative Clustering: clustering mixed datasets with
critical qualitative information
- arxiv url: http://arxiv.org/abs/2006.16701v3
- Date: Mon, 6 Jul 2020 11:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 04:54:50.476816
- Title: Hierarchical Qualitative Clustering: clustering mixed datasets with
critical qualitative information
- Title(参考訳): 階層的質的クラスタリング:臨界質的情報を含む混合データセットのクラスタリング
- Authors: Diogo Seca, Jo\~ao Mendes-Moreira, Tiago Mendes-Neves, Ricardo Sousa
- Abstract要約: 本稿では,階層クラスタリング(HQC)と最大平均離散値を用いた定性値のクラスタリング手法を提案する。
Spotifyが提供する混合データセットを用いて、数千曲の楽曲の量的特徴に基づいて、アーティストのクラスタリングに我々の手法をどのように利用できるかを示す。
また、企業の財務的特徴を利用することで、企業産業をクラスタ化し、投資ポートフォリオへの影響について議論する。
- 参考スコア(独自算出の注目度): 0.2294014185517203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering can be used to extract insights from data or to verify some of the
assumptions held by the domain experts, namely data segmentation. In the
literature, few methods can be applied in clustering qualitative values using
the context associated with other variables present in the data, without losing
interpretability. Moreover, the metrics for calculating dissimilarity between
qualitative values often scale poorly for high dimensional mixed datasets.
In this study, we propose a novel method for clustering qualitative values,
based on Hierarchical Clustering (HQC), and using Maximum Mean Discrepancy. HQC
maintains the original interpretability of the qualitative information present
in the dataset. We apply HQC to two datasets. Using a mixed dataset provided by
Spotify, we showcase how our method can be used for clustering music artists
based on the quantitative features of thousands of songs. In addition, using
financial features of companies, we cluster company industries, and discuss the
implications in investment portfolios diversification.
- Abstract(参考訳): クラスタリングは、データから洞察を抽出したり、ドメインの専門家が持つ前提、すなわちデータセグメンテーションの検証に使用することができる。
文献では、解釈可能性を失うことなく、データに存在する他の変数に関連するコンテキストを用いて定性値のクラスタリングに適用できる手法はほとんどない。
さらに、高次元の混合データセットでは、定性値間の不一致を計算するためのメトリクスは、しばしば貧弱にスケールする。
本研究では,階層的クラスタリング(hqc)と最大平均差を用いた,質的値のクラスタリング手法を提案する。
HQCはデータセットに存在する定性的情報の本来の解釈可能性を維持している。
HQCを2つのデータセットに適用する。
Spotifyが提供する混合データセットを用いて、数千曲の楽曲の量的特徴に基づいて、アーティストのクラスタリングに我々の手法をどのように利用できるかを示す。
また、企業の財務的特徴を利用して、企業産業をクラスタ化し、投資ポートフォリオの多様化の影響について論じる。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Cross-Modality Clustering-based Self-Labeling for Multimodal Data Classification [2.666791490663749]
CMCSL(Cross-Modality Clustering-based Self-Labeling)
CMCSLは、深い特徴空間の各モードに属するインスタンスをグループ化し、その結果のクラスタ内で既知のラベルを伝搬する。
MM-IMDbデータセットから抽出した20個のデータセットに対する実験的検討
論文 参考訳(メタデータ) (2024-08-05T15:43:56Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Using Decision Trees for Interpretable Supervised Clustering [0.0]
教師付きクラスタリングは、高い確率密度でラベル付きデータのクラスタを形成することを目的としている。
特に、特定のクラスのデータのクラスタを見つけ、包括的なルールのセットでクラスタを記述することに興味があります。
論文 参考訳(メタデータ) (2023-07-16T17:12:45Z) - Enhancing Cluster Quality of Numerical Datasets with Domain Ontology [2.790947019327459]
オントロジーベースのクラスタリングは、データセットから高品質または低品質のクラスタを生成することができる。
数値データセットにおける属性の次元性を低減するために,ドメインオントロジーに基づくクラスタリング手法を提案する。
提案手法の実験結果から,クラスタの品質は,ドメインオントロジーの下位レベルから上位レベルへと徐々に向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-02T23:40:17Z) - Neural Capacitated Clustering [6.155158115218501]
本稿では,クラスタセンターへのポイントの割り当て確率を予測するニューラルネットワークを学習する,容量クラスタリング問題(CCP)の新しい手法を提案する。
人工データと2つの実世界のデータセットに関する実験では、我々のアプローチは文学の最先端の数学的および解法よりも優れています。
論文 参考訳(メタデータ) (2023-02-10T09:33:44Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。