論文の概要: Human in-the-Loop Estimation of Cluster Count in Datasets via
Similarity-Driven Nested Importance Sampling
- arxiv url: http://arxiv.org/abs/2312.05287v1
- Date: Fri, 8 Dec 2023 15:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:47:15.699053
- Title: Human in-the-Loop Estimation of Cluster Count in Datasets via
Similarity-Driven Nested Importance Sampling
- Title(参考訳): 類似性を考慮したNested Importance Smplingによるデータセットのクラスタ数の推定
- Authors: Gustavo Perez, Daniel Sheldon, Grant Van Horn, Subhransu Maji
- Abstract要約: そこで本研究では,大容量データセットにおけるクラスタ数の推定値を生成する手法を提案する。
本フレームワークは, 対の類似性によって導かれるエッジをサンプリングし, 人間のフィードバックを収集し, クラスタ数を統計的に推定する。
- 参考スコア(独自算出の注目度): 30.403555750519264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying the number of clusters serves as a preliminary goal for many data
analysis tasks. A common approach to this problem is to vary the number of
clusters in a clustering algorithm (e.g., 'k' in $k$-means) and pick the value
that best explains the data. However, the count estimates can be unreliable
especially when the image similarity is poor. Human feedback on the pairwise
similarity can be used to improve the clustering, but existing approaches do
not guarantee accurate count estimates. We propose an approach to produce
estimates of the cluster counts in a large dataset given an approximate
pairwise similarity. Our framework samples edges guided by the pairwise
similarity, and we collect human feedback to construct a statistical estimate
of the cluster count. On the technical front we have developed a nested
importance sampling approach that yields (asymptotically) unbiased estimates of
the cluster count with confidence intervals which can guide human effort.
Compared to naive sampling, our similarity-driven sampling produces more
accurate estimates of counts and tighter confidence intervals. We evaluate our
method on a benchmark of six fine-grained image classification datasets
achieving low error rates on the estimated number of clusters with
significantly less human labeling effort compared to baselines and alternative
active clustering approaches.
- Abstract(参考訳): クラスタ数を特定することは、多くのデータ分析タスクの予備的な目標となる。
この問題に対する一般的なアプローチは、クラスタリングアルゴリズム(例えば、$k$-meansの 'k' など)のクラスタ数を変え、データを最もよく説明する値を選択することである。
しかし、特に画像類似性が低い場合には、カウント推定は信頼できない。
ペアの類似性に対する人間のフィードバックはクラスタリングを改善するために使用できるが、既存のアプローチでは正確なカウント推定を保証できない。
本研究では,大容量データセットにおけるクラスタ数の推定を近似的な相似性から推定する手法を提案する。
本フレームワークは,対の類似性によって導かれるエッジをサンプリングし,人間のフィードバックを収集し,クラスタ数を統計的に推定する。
技術的面では、人間の努力を導くための信頼区間を持つクラスタ数の(漸近的に)偏りのない見積を導出する、ネステッドな重要サンプリングアプローチを開発しました。
ナイーブサンプリングと比較すると、類似性に基づくサンプリングは、カウントの正確な推定と信頼区間の厳密化をもたらす。
提案手法は,ベースラインや代替アクティブクラスタリング手法と比較して,推定されたクラスタ数で誤差率の低い6つの細粒度画像分類データセットのベンチマークで評価した。
関連論文リスト
- Deep Embedding Clustering Driven by Sample Stability [16.53706617383543]
サンプル安定性(DECS)により駆動されるディープ埋め込みクラスタリングアルゴリズムを提案する。
具体的には、まずオートエンコーダで初期特徴空間を構築し、次にサンプル安定性に制約されたクラスタ指向の埋め込み機能を学ぶ。
5つのデータセットに対する実験結果から,提案手法は最先端のクラスタリング手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-01-29T09:19:49Z) - A structured regression approach for evaluating model performance across
intersectional subgroups [57.84444882410051]
分散評価は、AIフェアネスアセスメントにおける中心的なタスクであり、異なるサブグループ間でAIシステムのパフォーマンスを測定することを目的としている。
本稿では,システム性能評価の信頼性を実証する,非凝集評価のための構造化回帰手法を提案する。
我々は2つの公開データセットといくつかの半合成データの変種についてアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文 参考訳(メタデータ) (2023-04-27T13:41:12Z) - Significance-Based Categorical Data Clustering [7.421725101465365]
我々は、カテゴリデータクラスタリングにおいて、重要度に基づく目的関数として機能するテスト統計を導出するために、確率比テストを使用する。
モンテカルロ探索手法を用いて重要度に基づく目的関数を最適化する新しいクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-08T02:06:31Z) - Self-Evolutionary Clustering [1.662966122370634]
既存のディープクラスタリング手法の多くは、単純な距離比較に基づいており、手作り非線形マッピングによって生成されたターゲット分布に大きく依存している。
新たなモジュール型自己進化クラスタリング(Self-EvoC)フレームワークが構築され,自己管理的な分類によってクラスタリング性能が向上する。
このフレームワークは、サンプルアウトレイラを効率よく識別し、自己監督の助けを借りて、より良い目標分布を生成することができる。
論文 参考訳(メタデータ) (2022-02-21T19:38:18Z) - Clustering performance analysis using new correlation based cluster
validity indices [0.0]
本研究では,2つのデータポイント間の実際の距離と,2つのポイントが位置するクラスタのセントロイド距離との相関に基づく2つの新しいクラスタ妥当性指標を開発した。
提案した指標は, 前述した弱点を克服する異なる数のクラスタにおいて, 常にいくつかのピークを発生させる。
論文 参考訳(メタデータ) (2021-09-23T06:59:41Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。