論文の概要: CDC: A Simple Framework for Complex Data Clustering
- arxiv url: http://arxiv.org/abs/2403.03670v1
- Date: Wed, 6 Mar 2024 12:47:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 15:02:46.174235
- Title: CDC: A Simple Framework for Complex Data Clustering
- Title(参考訳): CDC: 複雑なデータクラスタリングのためのシンプルなフレームワーク
- Authors: Zhao Kang, Xuanting Xie, Bingheng Li and Erlin Pan
- Abstract要約: 複雑なデータクラスタリング(CDC)のためのフレームワークを提案する。
まず、グラフフィルタリングを用いて幾何学構造と属性情報を融合する。
そして、新しい類似性保存正規化器によって適応的に学習される高品質なアンカーの複雑さを低減する。
- 参考スコア(独自算出の注目度): 7.545473019557053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's data-driven digital era, the amount as well as complexity, such as
multi-view, non-Euclidean, and multi-relational, of the collected data are
growing exponentially or even faster. Clustering, which unsupervisely extracts
valid knowledge from data, is extremely useful in practice. However, existing
methods are independently developed to handle one particular challenge at the
expense of the others. In this work, we propose a simple but effective
framework for complex data clustering (CDC) that can efficiently process
different types of data with linear complexity. We first utilize graph
filtering to fuse geometry structure and attribute information. We then reduce
the complexity with high-quality anchors that are adaptively learned via a
novel similarity-preserving regularizer. We illustrate the cluster-ability of
our proposed method theoretically and experimentally. In particular, we deploy
CDC to graph data of size 111M.
- Abstract(参考訳): 今日のデータ駆動デジタル時代において、収集されたデータのマルチビュー、非ユークリッド、マルチリレーショナルといった複雑さと量は指数関数的に、あるいはさらに速く増加している。
データから有効な知識を取り出すクラスタリングは、実際は非常に有用である。
しかし、既存の手法は、他の手法を犠牲にして、ある特定の課題に対処するために独立に開発されている。
本研究では,複雑なデータクラスタリング(cdc)に対して,線形複雑度を持つ異なる種類のデータを効率的に処理できる,単純かつ効果的なフレームワークを提案する。
まず,グラフフィルタリングを用いて幾何構造と属性情報を融合する。
そして、新しい類似性保存正規化器によって適応的に学習される高品質なアンカーの複雑さを低減する。
本稿では,提案手法のクラスター性について理論的および実験的に示す。
特に、サイズ111mのグラフデータにcdcをデプロイします。
関連論文リスト
- Data Aggregation for Hierarchical Clustering [0.3626013617212666]
BETULAは、よく知られたBIRCHデータ集約アルゴリズムの数値的に安定したバージョンである。
これは、クラスタリングの品質に小さな損失しか与えずに、制約のあるリソースを持つシステムでHACを実行可能なものにするために使用できる。
論文 参考訳(メタデータ) (2023-09-05T19:39:43Z) - AugDMC: Data Augmentation Guided Deep Multiple Clustering [2.479720095773358]
AugDMCは、Deep Multiple Clustering法による新しいデータ拡張ガイドである。
データ拡張を利用して、データの特定の側面に関連する機能を自動的に抽出する。
異なる拡張から不安定な問題を緩和するために、安定な最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-06-22T16:31:46Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Adaptively-weighted Integral Space for Fast Multiview Clustering [54.177846260063966]
線形複雑度に近い高速マルチビュークラスタリングのための適応重み付き積分空間(AIMC)を提案する。
特に、ビュー生成モデルは、潜在積分空間からのビュー観測を再構成するために設計されている。
いくつかの実世界のデータセットで実施された実験は、提案したAIMC法の優位性を確認した。
論文 参考訳(メタデータ) (2022-08-25T05:47:39Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。