論文の概要: ClusterNet: A Perception-Based Clustering Model for Scattered Data
- arxiv url: http://arxiv.org/abs/2304.14185v2
- Date: Mon, 4 Sep 2023 08:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 05:35:30.795252
- Title: ClusterNet: A Perception-Based Clustering Model for Scattered Data
- Title(参考訳): ClusterNet: 散乱データに対する知覚ベースのクラスタリングモデル
- Authors: Sebastian Hartwig, Christian van Onzenoodt, Pedro Hermosilla, Timo
Ropinski
- Abstract要約: クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
- 参考スコア(独自算出の注目度): 16.85190103265654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualizations for scattered data are used to make users understand certain
attributes of their data by solving different tasks, e.g. correlation
estimation, outlier detection, cluster separation. In this paper, we focus on
the later task, and develop a technique that is aligned to human perception,
that can be used to understand how human subjects perceive clusterings in
scattered data and possibly optimize for better understanding. Cluster
separation in scatterplots is a task that is typically tackled by widely used
clustering techniques, such as for instance k-means or DBSCAN. However, as
these algorithms are based on non-perceptual metrics, we can show in our
experiments, that their output do not reflect human cluster perception. We
propose a learning strategy which directly operates on scattered data. To learn
perceptual cluster separation on this data, we crowdsourced a large scale
dataset, consisting of 7,320 point-wise cluster affiliations for bivariate
data, which has been labeled by 384 human crowd workers. Based on this data, we
were able to train ClusterNet, a point-based deep learning model, trained to
reflect human perception of cluster separability. In order to train ClusterNet
on human annotated data, we use a PointNet++ architecture enabling inference on
point clouds directly. In this work, we provide details on how we collected our
dataset, report statistics of the resulting annotations, and investigate
perceptual agreement of cluster separation for real-world data. We further
report the training and evaluation protocol of ClusterNet and introduce a novel
metric, that measures the accuracy between a clustering technique and a group
of human annotators. Finally, we compare our approach against existing
state-of-the-art clustering techniques and can show, that ClusterNet is able to
generalize to unseen and out of scope data.
- Abstract(参考訳): 散在データの可視化は、相関推定、異常検出、クラスタ分離など、さまざまなタスクを解決してデータの特定の属性を理解するために使用される。
本稿では,後者の課題に着目し,人間の知覚と整合する手法を考案し,散乱データ中の人間のクラスタリングをどのように知覚するかを理解し,より理解を深めるために最適化するかを検討する。
クラスタ分離は一般的に、k-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。
しかし,これらのアルゴリズムは非知覚的メトリクスに基づいており,人間のクラスタ認識を反映していないことを示す。
本稿では,分散データを直接操作する学習戦略を提案する。
このデータに対する知覚的クラスタ分離を学ぶために,384人のクラウドワーカーがラベル付けした2変量データに対する7,320個のポイントワイズクラスタアフィリエイションからなる大規模データセットをクラウドソースした。
このデータに基づいて、ポイントベースのディープラーニングモデルであるclusternetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練しました。
ヒトのアノテートデータ上でClusterNetをトレーニングするために、ポイントクラウドでの推論を可能にするPointNet++アーキテクチャを使用します。
本研究では、データセットの収集方法の詳細と、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的一致について検討する。
さらに,クラスタネットの学習と評価プロトコルを報告し,クラスタリング手法と人間の注釈器群との精度を測定する新しい指標を提案する。
最後に、既存の最先端クラスタリング技術に対する我々のアプローチを比較し、ClusterNetがスコープデータの見当たらない領域に一般化できることを示します。
関連論文リスト
- Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Unsupervised Visual Representation Learning by Online Constrained
K-Means [44.38989920488318]
クラスタ識別は、教師なし表現学習の効果的な前提課題である。
オンラインtextbfConstrained textbfK-mtextbfeans (textbfCoKe) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。
当社のオンライン割当て方式は,グローバルな最適化に近づくための理論的保証を持っている。
論文 参考訳(メタデータ) (2021-05-24T20:38:32Z) - Dynamic Clustering in Federated Learning [15.37652170495055]
本稿では,生成型逆ネットワーク型クラスタリング,クラスタキャリブレーション,クラスタ分割という3相データクラスタリングアルゴリズムを提案する。
提案アルゴリズムは,セルラーネットワークハンドオーバを含む予測モデルの性能を43%向上させる。
論文 参考訳(メタデータ) (2020-12-07T15:30:07Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。