論文の概要: A new model for natural groupings in high-dimensional data
- arxiv url: http://arxiv.org/abs/1909.06511v2
- Date: Mon, 24 Jun 2024 13:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 20:41:09.620681
- Title: A new model for natural groupings in high-dimensional data
- Title(参考訳): 高次元データにおける自然グルーピングの新しいモデル
- Authors: Mireille Boutin, Evzenie Coupkova,
- Abstract要約: クラスタリングは、一連のポイントをグループに分割することを目的としています。
最近の実験では、異なるバイナリグルーピングを形成するいくつかの高次元データセットが発見されている。
本稿では,この現象を説明できる確率モデルについて述べる。
- 参考スコア(独自算出の注目度): 0.4604003661048266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clustering aims to divide a set of points into groups. The current paradigm assumes that the grouping is well-defined (unique) given the probability model from which the data is drawn. Yet, recent experiments have uncovered several high-dimensional datasets that form different binary groupings after projecting the data to randomly chosen one-dimensional subspaces. This paper describes a probability model for the data that could explain this phenomenon. It is a simple model to serve as a proof of concept for understanding the geometry of high-dimensional data. We start by building a rescaled multivariate Bernouilli model (stretched hypercube) so to create several overlapping grouping structures in the data. The size of each scaling parameter is related to the likelihood of uncovering the corresponding grouping by random 1D projection. Clusters in the original space are then created by adding noise to this cluster-free model. In high dimension, these clusters would hardly be observable given a sample set from the distribution because of the curse of dimensionality, but the binary groupings are clear. Our construction makes it clear that one needs to make a distinction between "groupings" and "clusters" in the original space. It also highlights the need to interpret any clustering found in projected data as merely one among potentially many other groupings in a dataset.
- Abstract(参考訳): クラスタリングは、一連のポイントをグループに分割することを目的としています。
現在のパラダイムは、データを描画する確率モデルを考えると、グルーピングが適切に定義された(一意)ものであると仮定している。
しかし、最近の実験では、ランダムに選択された1次元部分空間にデータを投影した後、異なるバイナリグルーピングを形成する高次元データセットがいくつか発見されている。
本稿では,この現象を説明できる確率モデルについて述べる。
高次元データの幾何学を理解するための概念実証として機能する単純なモデルである。
まず、再スケールした多変数ベルヌーイモデル(拡張ハイパーキューブ)を構築し、データ内に複数の重なり合うグループ構造を生成する。
各スケーリングパラメータのサイズは、ランダムな1Dプロジェクションによって対応するグルーピングを明らかにする可能性に関連している。
元のスペースのクラスタは、このクラスタフリーモデルにノイズを加えることで生成される。
高次元では、これらのクラスターは次元性の呪いのために分布から標本をセットした状態ではほとんど観測できないが、二項群は明らかである。
我々の構成は、元の空間における「グループ」と「クラスタ」を区別する必要があることを明らかにしている。
また、プロジェクションされたデータにある任意のクラスタリングを、データセット内の他の多くのグループのうちの1つとして解釈する必要性を強調している。
関連論文リスト
- Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Spatio-Temporal Surrogates for Interaction of a Jet with High
Explosives: Part II -- Clustering Extremely High-Dimensional Grid-Based Data [0.0]
本稿では,高爆薬と相互作用するジェット機のシミュレーションから得られた出力データについて考察する。
ランダムなプロジェクションのランダム性と,k平均クラスタリングにおける初期セントロイドの選択を併用して,データセット内のクラスタ数を決定する方法を示す。
論文 参考訳(メタデータ) (2023-07-03T23:36:43Z) - A Class of Dependent Random Distributions Based on Atom Skipping [2.3258287344692676]
我々は,グループ化されたデータに対するベイズ的非パラメトリックモデルであるPlaid Atoms Model (PAM)を提案する。
PAMは、グループ間で重なり合うクラスタと非重なり合うクラスタリングパターンを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:18:43Z) - Randomly Projected Convex Clustering Model: Motivation, Realization, and
Cluster Recovery Guarantees [18.521314122101774]
ランダムに投影された凸クラスタリングモデルを用いて,$n$の高次元データポイントの集合を$mathbbRd$と$K$の隠れクラスタでクラスタリングする。
軽度の条件下では,コンベックスクラスタリングモデルのクラスタメンバシップ割り当てが完全に回復できることが証明できる。
本稿では,ランダムに投影された凸クラスタリングモデルが,実際にランダムに投影されたK平均モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-03-29T16:47:25Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular
data [81.43750358586072]
本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。
実世界の4つの医療データセットに対するData-IQの利点を実験的に実証した。
論文 参考訳(メタデータ) (2022-10-24T08:57:55Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Sum-of-norms clustering does not separate nearby balls [49.1574468325115]
我々は,データセットを一般的な測度に置き換えた,和和クラスタリングの連続的なバージョンを示す。
我々は,離散データポイントの場合においても,新たなクラスタリングの局所的特徴を記述し,証明する。
論文 参考訳(メタデータ) (2021-04-28T13:35:17Z) - Mixed data Deep Gaussian Mixture Model: A clustering model for mixed
datasets [0.0]
我々はMixed Deep Gaussian Mixture Model (MDGMM)と呼ばれるモデルに基づくクラスタリング手法を提案する。
このアーキテクチャは柔軟性があり、連続データや非連続データにも適用できる。
我々のモデルはデータの連続的な低次元表現を提供し、混合データセットを視覚化するのに有用なツールである。
論文 参考訳(メタデータ) (2020-10-13T19:52:46Z) - Clustering small datasets in high-dimension by random projection [2.2940141855172027]
統計的に重要なクラスタリング構造を小さなデータセットで見つけるための低計算手法を提案する。
この手法は、ランダムな線上にデータを投影し、その結果の1次元データにバイナリクラスタリングを求める。
得られたクラスタリング構造の統計的妥当性を投影された一次元空間で検証する。
論文 参考訳(メタデータ) (2020-08-21T16:49:37Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。