論文の概要: Metrics for quantifying isotropy in high dimensional unsupervised
clustering tasks in a materials context
- arxiv url: http://arxiv.org/abs/2305.16372v1
- Date: Thu, 25 May 2023 13:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 18:55:58.225238
- Title: Metrics for quantifying isotropy in high dimensional unsupervised
clustering tasks in a materials context
- Title(参考訳): 材料コンテキストにおける高次元教師なしクラスタリングタスクにおける等方性定量化指標
- Authors: Samantha Durdy, Michael W. Gaultois, Vladimir Gusev, Danushka
Bollegala, and Matthew J. Rosseinsky
- Abstract要約: クラスタリングは機械学習では一般的なタスクだが、乱れのないデータのクラスタは定量化が難しい。
異なる表現、クラスタリングアルゴリズム、あるいはデータ変換が結果のクラスタに与える影響を確認することは、これらのデータの次元性のために困難である。
本稿では,既存の導出に基づく新しいインプラントを含むクラスターの等方性測定の徹底的な解析を行う。
- 参考スコア(独自算出の注目度): 10.217770791527098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering is a common task in machine learning, but clusters of unlabelled
data can be hard to quantify. The application of clustering algorithms in
chemistry is often dependant on material representation. Ascertaining the
effects of different representations, clustering algorithms, or data
transformations on the resulting clusters is difficult due to the
dimensionality of these data. We present a thorough analysis of measures for
isotropy of a cluster, including a novel implantation based on an existing
derivation. Using fractional anisotropy, a common method used in medical
imaging for comparison, we then expand these measures to examine the average
isotropy of a set of clusters. A use case for such measures is demonstrated by
quantifying the effects of kernel approximation functions on different
representations of the Inorganic Crystal Structure Database. Broader
applicability of these methods is demonstrated in analysing learnt embedding of
the MNIST dataset. Random clusters are explored to examine the differences
between isotropy measures presented, and to see how each method scales with the
dimensionality. Python implementations of these measures are provided for use
by the community.
- Abstract(参考訳): クラスタリングは機械学習では一般的なタスクだが、ラベルのないデータのクラスタは定量化が難しい。
化学におけるクラスタリングアルゴリズムの適用は、しばしば材料表現に依存する。
異なる表現、クラスタリングアルゴリズム、または結果のクラスタに対するデータ変換の影響を確認することは、これらのデータの次元性のため困難である。
本稿では,既存の導出に基づく新しいインプラントを含むクラスターの等方性測定の徹底的な解析を行う。
比較のために医用画像法で一般的な方法である分数異方性を用いて,これらの測定値を拡張し,クラスター群の平均異方性を調べる。
このような測定のユースケースは、無機結晶構造データベースの異なる表現に対するカーネル近似関数の効果を定量化することによって示される。
これらの手法の幅広い適用性は、mnistデータセットの学習埋め込みの分析で示される。
ランダムクラスタは、提示される等方性測度の違いを調べ、各手法が寸法でどのようにスケールするかを調べる。
これらの尺度のPython実装は、コミュニティが使用するために提供されている。
関連論文リスト
- Causal K-Means Clustering [5.087519744951637]
Causal k-Means Clusteringは、広く使われているk-means Clusteringアルゴリズムを利用して、未知の部分群構造を明らかにする。
既成のアルゴリズムを用いて簡易かつ容易に実装可能なプラグイン推定器を提案する。
提案手法は,複数の治療レベルを有する近代的な結果研究に特に有用である。
論文 参考訳(メタデータ) (2024-05-05T23:59:51Z) - Datacube segmentation via Deep Spectral Clustering [76.48544221010424]
拡張ビジョン技術は、しばしばその解釈に挑戦する。
データ立方体スペクトルの巨大な次元性は、その統計的解釈において複雑なタスクを生じさせる。
本稿では,符号化空間における教師なしクラスタリング手法の適用の可能性について検討する。
統計的次元削減はアドホック訓練(可変)オートエンコーダで行い、クラスタリング処理は(学習可能な)反復K-Meansクラスタリングアルゴリズムで行う。
論文 参考訳(メタデータ) (2024-01-31T09:31:28Z) - RandomSCM: interpretable ensembles of sparse classifiers tailored for
omics data [59.4141628321618]
決定規則の結合や解離に基づくアンサンブル学習アルゴリズムを提案する。
モデルの解釈可能性により、高次元データのバイオマーカー発見やパターン発見に有用である。
論文 参考訳(メタデータ) (2022-08-11T13:55:04Z) - Comparative Study of Inference Methods for Interpolative Decomposition [4.913248451323163]
補間分解(ID)学習のための自動関係決定(ARD)を用いた確率モデルを提案する。
CCLE $EC50$, CCLE $IC50$, Gene Body Methylation, promoteder Methylation datasets with different size, and dimensions。
論文 参考訳(メタデータ) (2022-06-29T11:37:05Z) - An adaptive granularity clustering method based on hyper-ball [11.35322380857363]
本手法は, 類似した分布を持つデータがハイパーボールとなり, 隣接するハイパーボールがクラスタとなるという考え方に基づいている。
この手法は「大規模ファースト」の認知法則に基づき、単純で非パラメトリックな方法で形状を考慮せずにクラスターを識別することができる。
論文 参考訳(メタデータ) (2022-05-29T07:44:09Z) - Tk-merge: Computationally Efficient Robust Clustering Under General
Assumptions [0.0]
トリミングされたk平均と階層的アグロメレーションに基づく2段階のハイブリッドロバストクラスタリングアルゴリズムを提案する。
また、本手法の自然な一般化と、データ駆動方式で汚染量を推定する適応的な手順を提案する。
論文 参考訳(メタデータ) (2022-01-17T13:05:05Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - Fuzzy clustering algorithms with distance metric learning and entropy
regularization [0.0]
本稿では,ユークリッド,シティブロック,マハラノビス距離とエントロピー正規化に基づくファジィクラスタリングアルゴリズムを提案する。
合成および実データセットに関するいくつかの実験は、ノイズの多い画像テクスチャセグメンテーションへの応用を含む、これらの適応クラスタリング手法の有用性を実証している。
論文 参考訳(メタデータ) (2021-02-18T18:19:04Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。