論文の概要: ClusterNet: A Perception-Based Clustering Model for Scattered Data
- arxiv url: http://arxiv.org/abs/2304.14185v3
- Date: Wed, 6 Mar 2024 07:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:20:53.917339
- Title: ClusterNet: A Perception-Based Clustering Model for Scattered Data
- Title(参考訳): ClusterNet: 散乱データに対する知覚ベースのクラスタリングモデル
- Authors: Sebastian Hartwig, Christian van Onzenoodt, Dominik Engel, Pedro
Hermosilla, Timo Ropinski
- Abstract要約: クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
- 参考スコア(独自算出の注目度): 16.326062082938215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualizations for scattered data are used to make users understand certain
attributes of their data by solving different tasks, e.g. correlation
estimation, outlier detection, cluster separation. In this paper, we focus on
the later task, and develop a technique that is aligned to human perception,
that can be used to understand how human subjects perceive clusterings in
scattered data and possibly optimize for better understanding. Cluster
separation in scatterplots is a task that is typically tackled by widely used
clustering techniques, such as for instance k-means or DBSCAN. However, as
these algorithms are based on non-perceptual metrics, we can show in our
experiments, that their output do not reflect human cluster perception. We
propose a learning strategy which directly operates on scattered data. To learn
perceptual cluster separation on this data, we crowdsourced a large scale
dataset, consisting of 7,320 point-wise cluster affiliations for bivariate
data, which has been labeled by 384 human crowd workers. Based on this data, we
were able to train ClusterNet, a point-based deep learning model, trained to
reflect human perception of cluster separability. In order to train ClusterNet
on human annotated data, we use a PointNet++ architecture enabling inference on
point clouds directly. In this work, we provide details on how we collected our
dataset, report statistics of the resulting annotations, and investigate
perceptual agreement of cluster separation for real-world data. We further
report the training and evaluation protocol of ClusterNet and introduce a novel
metric, that measures the accuracy between a clustering technique and a group
of human annotators. Finally, we compare our approach against existing
state-of-the-art clustering techniques and can show, that ClusterNet is able to
generalize to unseen and out of scope data.
- Abstract(参考訳): 散在データの可視化は、相関推定、異常検出、クラスタ分離など、さまざまなタスクを解決してデータの特定の属性を理解するために使用される。
本稿では,後者の課題に着目し,人間の知覚と整合する手法を考案し,散乱データ中の人間のクラスタリングをどのように知覚するかを理解し,より理解を深めるために最適化するかを検討する。
クラスタ分離は一般的に、k-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。
しかし,これらのアルゴリズムは非知覚的メトリクスに基づいており,人間のクラスタ認識を反映していないことを示す。
本稿では,分散データを直接操作する学習戦略を提案する。
このデータに対する知覚的クラスタ分離を学ぶために,384人のクラウドワーカーがラベル付けした2変量データに対する7,320個のポイントワイズクラスタアフィリエイションからなる大規模データセットをクラウドソースした。
このデータに基づいて、ポイントベースのディープラーニングモデルであるclusternetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練しました。
ヒトのアノテートデータ上でClusterNetをトレーニングするために、ポイントクラウドでの推論を可能にするPointNet++アーキテクチャを使用します。
本研究では、データセットの収集方法の詳細と、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的一致について検討する。
さらに,クラスタネットの学習と評価プロトコルを報告し,クラスタリング手法と人間の注釈器群との精度を測定する新しい指標を提案する。
最後に、既存の最先端クラスタリング技術に対する我々のアプローチを比較し、ClusterNetがスコープデータの見当たらない領域に一般化できることを示します。
関連論文リスト
- THESAURUS: Contrastive Graph Clustering by Swapping Fused Gromov-Wasserstein Couplings [9.805171821491207]
We present conTrastive grapH clustEring by SwApping fUsed gRomov-wasserstein couplingS (THESAURUS)
本手法では,コンテキスト情報を提供するためのセマンティックプロトタイプを導入し,クロスビュー代入予測プレテキストタスクを採用する。
これはGromov-Wasserstein Optimal Transport (GW-OT) と提案したプロトタイプグラフを利用して、グラフ構造のクラスタ情報を徹底的に活用する。
論文 参考訳(メタデータ) (2024-12-16T08:33:56Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - CLAMS: A Cluster Ambiguity Measure for Estimating Perceptual Variability
in Visual Clustering [23.625877882403227]
本稿では,クラスタアンビグニティ(Cluster Ambiguity)と呼ばれる視覚的クラスタリングを行う際の知覚的変動について検討する。
我々は,モノクローム散乱体におけるクラスタのあいまいさを自動的に予測する,データ駆動型視覚品質尺度であるCLAMSを紹介する。
論文 参考訳(メタデータ) (2023-08-01T04:46:35Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Human Motion Detection Using Sharpened Dimensionality Reduction and
Clustering [1.1172382217477126]
本研究では,高次元データの2次元投影を容易にラベル付けするためのクラスタリング手法を提案する。
我々は、SDRのパイプラインと、さまざまな合成および実世界のデータセット上でクラスタリング方法をテストする。
我々は、クラスタリングSDRの結果が、クラスタリングプレーンDRよりも優れたラベル付け結果をもたらすことを結論し、k-meansがSDRの推奨クラスタリング方法であることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:18:25Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。