論文の概要: The cluster structure function
- arxiv url: http://arxiv.org/abs/2201.01222v1
- Date: Tue, 4 Jan 2022 16:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 13:39:13.590989
- Title: The cluster structure function
- Title(参考訳): クラスタ構造関数
- Authors: Andrew R. Cohen and Paul M.B. Vit\'anyi
- Abstract要約: クラスタ構造関数は、パーティションの部品数を、その部品による良いモデルであることの欠陥に関連する値にマッピングする。
最適なクラスタリングは、クラスタ構造関数を最小限にするために選ばれたものである。
実データを用いた例を挙げる: MNIST手書き桁と、幹細胞研究で用いられる実細胞のセグメント化である。
- 参考スコア(独自算出の注目度): 1.1168121941015012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For each partition of a data set into a given number of parts there is a
partition such that every part is as much as possible a good model (an
"algorithmic sufficient statistic") for the data in that part. Since this can
be done for every number between one and the number of data, the result is a
function, the cluster structure function. It maps the number of parts of a
partition to values related to the deficiencies of being good models by the
parts. Such a function starts with a value at least zero for no partition of
the data set and descents to zero for the partition of the data set into
singleton parts. The optimal clustering is the one chosen to minimize the
cluster structure function. The theory behind the method is expressed in
algorithmic information theory (Kolmogorov complexity). In practice the
Kolmogorov complexities involved are approximated by a concrete compressor. We
give examples using real data sets: the MNIST handwritten digits and the
segmentation of real cells as used in stem cell research.
- Abstract(参考訳): 与えられた部品数に設定されたデータのパーティションごとに、その部分に含まれるデータに対して、すべての部分が可能な限り良いモデル("アルゴリズム的十分統計")であるようなパーティションが存在する。
これは1とデータ数の間のすべての数に対して可能であるので、結果は関数であり、クラスタ構造関数である。
パーティションの部品数を、部品による良いモデルであることの欠陥に関連する値にマッピングする。
このような関数は、データセットのパーティションが無ければ少なくともゼロの値から始まり、データセットのパーティションがシングルトンに分割される場合、0に降下する。
最適なクラスタリングは、クラスタ構造関数を最小限にするために選ばれたものである。
この方法の背後にある理論はアルゴリズム情報理論(コルモゴロフ複雑性)で表される。
実際にはコルモゴロフ錯体はコンクリート圧縮機によって近似される。
実データを用いた例を挙げる: MNIST手書き桁と、幹細胞研究で用いられる実細胞のセグメント化である。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - funLOCI: a local clustering algorithm for functional data [0.0]
funLOCIは、分割階層クラスタリングに基づく3段階のアルゴリズムである。
大量のローカルクラスタを扱うために、結果の最小化のために余分なステップが実装されている。
論文 参考訳(メタデータ) (2023-05-22T12:51:58Z) - ck-means, a novel unsupervised learning method that combines fuzzy and
crispy clustering methods to extract intersecting data [1.827510863075184]
本稿では,2つの特徴以上の共通点を共有するデータをクラスタリングする手法を提案する。
この手法の主な考え方は、ファジィ C-Means (FCM) アルゴリズムを用いてファジィクラスタを生成することである。
このアルゴリズムはまた、シルエット指数(SI)によって与えられるクラスタの一貫性に従って、FCMとk平均アルゴリズムのための最適なクラスタ数を見つけることができる。
論文 参考訳(メタデータ) (2022-06-17T19:29:50Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - How to Find a Good Explanation for Clustering? [7.951746797489421]
Moshkovitz氏、Dasgupta氏、Rashtchian氏、Frost氏(ICML 2020)は、説明可能な$k$-meansと$k$-medianクラスタリングのエレガントなモデルを提案した。
説明可能なクラスタリングに関する2つの自然なアルゴリズム的問題について検討する。
厳密なアルゴリズム分析では、入力サイズ、データの寸法、外乱数、クラスタ数、近似比といったパラメータが、説明可能なクラスタリングの計算複雑性に与える影響について光を当てています。
論文 参考訳(メタデータ) (2021-12-13T11:48:38Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Learning Aggregation Functions [78.47770735205134]
任意の濃度の集合に対する学習可能なアグリゲータであるLAF(Learning Aggregation Function)を紹介する。
半合成および実データを用いて,LAFが最先端の和(max-)分解アーキテクチャより優れていることを示す実験を報告する。
論文 参考訳(メタデータ) (2020-12-15T18:28:53Z) - Clustering multivariate functional data using unsupervised binary trees [0.0]
本研究では,汎用関数データに対するモデルに基づくクラスタリングアルゴリズムを提案する。
ランダム関数データ実現は、定義領域内の離散的、おそらくランダムな点において誤差で測定することができる。
新しいアルゴリズムは、簡単に解釈可能な結果とオンラインデータセットの迅速な予測を提供します。
論文 参考訳(メタデータ) (2020-12-10T20:56:49Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z) - MREC: a fast and versatile framework for aligning and matching point
clouds with applications to single cell molecular data [9.127253863263773]
我々は,データセット間のマッチングを計算するための分解アルゴリズムであるMRECを紹介し,研究する。
このフレームワークは、マッチングの品質の絶対値を用いて、パーティショニング手順やマッチングアルゴリズムを含むパラメータの最適化をサポートする。
単細胞分子データの解析において生じる多数のアライメント問題に適用することにより、いつうまく機能するかを記述し、その柔軟性とパワーを実証する手順を解析する。
論文 参考訳(メタデータ) (2020-01-06T17:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。