論文の概要: Shape complexity in cluster analysis
- arxiv url: http://arxiv.org/abs/2205.08046v2
- Date: Wed, 18 May 2022 10:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 10:32:41.702577
- Title: Shape complexity in cluster analysis
- Title(参考訳): クラスター解析における形状複雑性
- Authors: Eduardo J. Aguilar, Valmir C. Barbosa
- Abstract要約: クラスタ分析において、一般的な第一歩は、データをクラスタに分割することを目的として、データをスケールすることだ。
ここでは,クラスタリングに先立って使用するスケーリング係数の獲得を目的として,データの多次元形状の利用について検討する。
いくつかの象徴的なデータセットで、新しいアプローチの強みと潜在的な弱点を強調します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In cluster analysis, a common first step is to scale the data aiming to
better partition them into clusters. Even though many different techniques have
throughout many years been introduced to this end, it is probably fair to say
that the workhorse in this preprocessing phase has been to divide the data by
the standard deviation along each dimension. Like division by the standard
deviation, the great majority of scaling techniques can be said to have roots
in some sort of statistical take on the data. Here we explore the use of
multidimensional shapes of data, aiming to obtain scaling factors for use prior
to clustering by some method, like k-means, that makes explicit use of
distances between samples. We borrow from the field of cosmology and related
areas the recently introduced notion of shape complexity, which in the variant
we use is a relatively simple, data-dependent nonlinear function that we show
can be used to help with the determination of appropriate scaling factors.
Focusing on what might be called "midrange" distances, we formulate a
constrained nonlinear programming problem and use it to produce candidate
scaling-factor sets that can be sifted on the basis of further considerations
of the data, say via expert knowledge. We give results on some iconic data
sets, highlighting the strengths and potential weaknesses of the new approach.
These results are generally positive across all the data sets used.
- Abstract(参考訳): クラスタ分析の一般的な第一歩は、データをクラスタに分割するためのスケールアップだ。
この目的には長年にわたり多くの異なる技術が導入されてきたが、この前処理フェーズにおけるワークホースは、各次元に沿った標準偏差によってデータを分割することであったと言えるだろう。
標準偏差による分割と同様に、スケーリング技術の大部分は、何らかの統計的なデータに対するルーツを持っていると言える。
本稿では,サンプル間距離を明示的に利用するk-meansなどの手法により,クラスタリング前に使用するためのスケーリング係数を得ることを目的として,データの多次元形状の利用を検討する。
我々は、宇宙論と関連する分野の分野から、最近導入された形状複雑性の概念を借用し、この変種では、比較的単純でデータに依存しない非線形関数を使い、適切なスケーリング係数の決定に役立てることができることを示した。
中間」距離と呼ばれるものに注目して、制約付き非線形プログラミング問題を定式化し、それを使って、専門家の知識を通じて、データのさらなる考察に基づいて、推測されるスケーリング要素セットを生成する。
いくつかの象徴的なデータセットで、新しいアプローチの強みと潜在的な弱点を強調します。
これらの結果は一般的に、使用されるすべてのデータセットで肯定的です。
関連論文リスト
- Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - Spatio-Temporal Surrogates for Interaction of a Jet with High
Explosives: Part II -- Clustering Extremely High-Dimensional Grid-Based Data [0.0]
本稿では,高爆薬と相互作用するジェット機のシミュレーションから得られた出力データについて考察する。
ランダムなプロジェクションのランダム性と,k平均クラスタリングにおける初期セントロイドの選択を併用して,データセット内のクラスタ数を決定する方法を示す。
論文 参考訳(メタデータ) (2023-07-03T23:36:43Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。
ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。
少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文 参考訳(メタデータ) (2023-02-13T17:09:59Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Local versions of sum-of-norms clustering [77.34726150561087]
本手法はボールモデルにおいて任意に閉じた球を分離できることを示す。
我々は、不連結連結集合のクラスタリングで発生する誤差に定量的な有界性を証明した。
論文 参考訳(メタデータ) (2021-09-20T14:45:29Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z) - Adaptive Discrete Smoothing for High-Dimensional and Nonlinear Panel
Data [4.550919471480445]
我々は高次元および非線形パネルデータモデルのためのデータ駆動平滑化手法を開発した。
重みはデータ駆動方式で決定され、対応する関数間の類似性に依存する。
我々は,推定器を用いて予測を大幅に改善できることを示すシミュレーション研究を行った。
論文 参考訳(メタデータ) (2019-12-30T09:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。