Fugu-MT 論文翻訳(概要): Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes

論文の概要: Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes

arxiv url: http://arxiv.org/abs/2403.05669v1
Date: Fri, 8 Mar 2024 20:49:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 12:49:43.453119
Title: Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes
Title（参考訳）: 余剰グラフノードを用いたカテゴリー別および混合型データのスペクトルクラスタリング
Authors: Dylan Soemitro, Jeova Farias Sales Rocha Neto
Abstract要約: 本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clustering data objects into homogeneous groups is one of the most important tasks in data mining. Spectral clustering is arguably one of the most important algorithms for clustering, as it is appealing for its theoretical soundness and is adaptable to many real-world data settings. For example, mixed data, where the data is composed of numerical and categorical features, is typically handled via numerical discretization, dummy coding, or similarity computation that takes into account both data types. This paper explores a more natural way to incorporate both numerical and categorical information into the spectral clustering algorithm, avoiding the need for data preprocessing or the use of sophisticated similarity functions. We propose adding extra nodes corresponding to the different categories the data may belong to and show that it leads to an interpretable clustering objective function. Furthermore, we demonstrate that this simple framework leads to a linear-time spectral clustering algorithm for categorical-only data. Finally, we compare the performance of our algorithms against other related methods and show that it provides a competitive alternative to them in terms of performance and runtime.
Abstract（参考訳）: データオブジェクトを均質なグループにクラスタリングすることは、データマイニングにおいて最も重要なタスクの1つです。スペクトルクラスタリングは、その理論的な健全性に魅力があり、多くの現実世界のデータ設定に適応できるため、おそらく最も重要なクラスタリングアルゴリズムの1つである。例えば、データが数値的特徴とカテゴリ的特徴で構成される混合データは通常、数値的離散化、ダミー符号化、あるいは両方のデータ型を考慮した類似性計算によって処理される。本稿では,データ前処理の必要性や高度な類似度関数の使用を回避し,スペクトルクラスタリングアルゴリズムに数値的およびカテゴリ的情報を組み込むより自然な方法を検討する。本稿では,データが属する可能性のある異なるカテゴリに対応するノードを追加し,解釈可能なクラスタリング目的関数に導くことを示す。さらに、この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムにつながることを示す。最後に、我々のアルゴリズムの性能を他の関連するメソッドと比較し、パフォーマンスとランタイムの点で、アルゴリズムに競合する代替手段を提供することを示す。

関連論文リスト

Clustering by Attention: Leveraging Prior Fitted Transformers for Data Partitioning [3.4530027457862005]
メタラーニングに基づく新しいクラスタリング手法を提案する。我々は,クラスタリングを行うために事前学習したPFN(Predior-Data Fitted Transformer Network)を用いている。我々の手法は最先端のクラスタリング技術よりも優れていることを示す。
論文参考訳（メタデータ） (2025-07-27T17:53:19Z)
Order Is All You Need for Categorical Data Clustering [29.264630563297466]
名目価値属性からなる分類データは、知識発見やデータマイニングのタスクにおいてユビキタスである。適切に定義された距離空間がないため、分類データの分布は直感的に理解することが難しい。本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。
論文参考訳（メタデータ） (2024-11-19T08:23:25Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。本稿では,分散データを直接操作する学習戦略を提案する。私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文参考訳（メタデータ） (2023-04-27T13:41:12Z)
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。本稿では,データ拡張を必要としない手法を提案する。
論文参考訳（メタデータ） (2023-03-29T08:23:26Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-29T08:13:56Z)
Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文参考訳（メタデータ） (2021-10-06T06:19:30Z)
A New Parallel Adaptive Clustering and its Application to Streaming Data [0.0]
本稿では,適切な数のクラスを同時に選択しながら,自動的にデータを分類する並列適応クラスタリング(pac)アルゴリズムを提案する。並列スレッドの結果を効率よくクラスタリングする正規化セット mik-means を開発した。提案手法の性能を特徴付けるための理論的解析と数値実験を行う。
論文参考訳（メタデータ） (2021-04-06T17:18:56Z)
Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文参考訳（メタデータ） (2021-04-03T15:32:49Z)
Fuzzy clustering algorithms with distance metric learning and entropy regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文参考訳（メタデータ） (2021-02-18T18:19:04Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
New advances in enumerative biclustering algorithms with online partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文参考訳（メタデータ） (2020-03-07T14:54:26Z)
Point-Set Kernel Clustering [11.093960688450602]
本稿では,オブジェクトとオブジェクトの集合との類似性を計算する,ポイントセットカーネルと呼ばれる新しい類似度尺度を提案する。新たなクラスタリング手法は,大規模データセットを扱えるように,効率的かつ効率的であることを示す。
論文参考訳（メタデータ） (2020-02-14T00:00:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。