論文の概要: HPSCAN: Human Perception-Based Scattered Data Clustering
- arxiv url: http://arxiv.org/abs/2304.14185v4
- Date: Thu, 30 Jan 2025 07:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:11:37.246364
- Title: HPSCAN: Human Perception-Based Scattered Data Clustering
- Title(参考訳): HPSCAN: 人間の知覚に基づく散乱データクラスタリング
- Authors: Sebastian Hartwig, Christian van Onzenoodt, Dominik Engel, Pedro Hermosilla, Timo Ropinski,
- Abstract要約: 本稿では,分散データを直接操作する学習戦略HPSCANを提案する。
我々は、我々のデータセットの収集方法、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的合意について調査する。
- 参考スコア(独自算出の注目度): 15.217526822318428
- License:
- Abstract: Cluster separation is a task typically tackled by widely used clustering techniques, such as k-means or DBSCAN. However, these algorithms are based on non-perceptual metrics, and our experiments demonstrate that their output does not reflect human cluster perception. To bridge the gap between human cluster perception and machine-computed clusters, we propose HPSCAN, a learning strategy that operates directly on scattered data. To learn perceptual cluster separation on such data, we crowdsourced the labeling of 7,320 bivariate (scatterplot) datasets to 384 human participants. We train our HPSCAN model on these human-annotated data. Instead of rendering these data as scatterplot images, we used their x and y point coordinates as input to a modified PointNet++ architecture, enabling direct inference on point clouds. In this work, we provide details on how we collected our dataset, report statistics of the resulting annotations, and investigate the perceptual agreement of cluster separation for real-world data. We also report the training and evaluation protocol for HPSCAN and introduce a novel metric, that measures the accuracy between a clustering technique and a group of human annotators. We explore predicting point-wise human agreement to detect ambiguities. Finally, we compare our approach to ten established clustering techniques and demonstrate that HPSCAN is capable of generalizing to unseen and out-of-scope data.
- Abstract(参考訳): クラスタ分離は、一般的にk-meansやDBSCANといった広く使われているクラスタリング技術によって取り組まれるタスクである。
しかし,これらのアルゴリズムは知覚的でない指標に基づいており,その出力が人間のクラスタ認識を反映していないことを示す実験を行った。
本稿では,人間のクラスタ認識と機械計算クラスタのギャップを埋めるために,分散データを直接操作する学習戦略HPSCANを提案する。
このようなデータから知覚的クラスタ分離を学習するために、我々は7,320の2変量データセットのラベルを384人の参加者にクラウドソーシングした。
我々は、これらの人間の注釈付きデータに基づいてHPSCANモデルをトレーニングする。
これらのデータをスキャッタープロット画像としてレンダリングする代わりに、修正された PointNet++ アーキテクチャへの入力として x と y の点座標を使い、ポイントクラウドの直接推論を可能にしました。
本研究では、我々のデータセットの収集方法の詳細、得られたアノテーションの統計を報告し、実世界のデータに対するクラスタ分離の知覚的合意について調査する。
また,HPSCANのトレーニング・評価プロトコルを報告し,クラスタリング手法と人間のアノテータ群との精度を計測する新しい指標を導入する。
我々は、あいまいさを検出するために、ポイントワイドな人間の合意を予測することを検討する。
最後に、我々のアプローチを10の確立されたクラスタリング手法と比較し、HPSCANがスコープ外データに対して一般化可能であることを示す。
関連論文リスト
- THESAURUS: Contrastive Graph Clustering by Swapping Fused Gromov-Wasserstein Couplings [9.805171821491207]
We present conTrastive grapH clustEring by SwApping fUsed gRomov-wasserstein couplingS (THESAURUS)
本手法では,コンテキスト情報を提供するためのセマンティックプロトタイプを導入し,クロスビュー代入予測プレテキストタスクを採用する。
これはGromov-Wasserstein Optimal Transport (GW-OT) と提案したプロトタイプグラフを利用して、グラフ構造のクラスタ情報を徹底的に活用する。
論文 参考訳(メタデータ) (2024-12-16T08:33:56Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - CLAMS: A Cluster Ambiguity Measure for Estimating Perceptual Variability
in Visual Clustering [23.625877882403227]
本稿では,クラスタアンビグニティ(Cluster Ambiguity)と呼ばれる視覚的クラスタリングを行う際の知覚的変動について検討する。
我々は,モノクローム散乱体におけるクラスタのあいまいさを自動的に予測する,データ駆動型視覚品質尺度であるCLAMSを紹介する。
論文 参考訳(メタデータ) (2023-08-01T04:46:35Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Human Motion Detection Using Sharpened Dimensionality Reduction and
Clustering [1.1172382217477126]
本研究では,高次元データの2次元投影を容易にラベル付けするためのクラスタリング手法を提案する。
我々は、SDRのパイプラインと、さまざまな合成および実世界のデータセット上でクラスタリング方法をテストする。
我々は、クラスタリングSDRの結果が、クラスタリングプレーンDRよりも優れたラベル付け結果をもたらすことを結論し、k-meansがSDRの推奨クラスタリング方法であることを示す。
論文 参考訳(メタデータ) (2022-02-23T18:18:25Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Integrating Auxiliary Information in Self-supervised Learning [94.11964997622435]
まず、補助情報がデータ構造に関する有用な情報をもたらす可能性があることを観察する。
補助情報に基づいてデータクラスタを構築する。
我々はCl-InfoNCEがデータクラスタリング情報を活用するためのより良いアプローチであることを示した。
論文 参考訳(メタデータ) (2021-06-05T11:01:15Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。