論文の概要: Kernel Metric Learning for Clustering Mixed-type Data
- arxiv url: http://arxiv.org/abs/2306.01890v1
- Date: Fri, 2 Jun 2023 19:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 23:20:40.953243
- Title: Kernel Metric Learning for Clustering Mixed-type Data
- Title(参考訳): クラスタリング混合型データのためのカーネルメトリック学習
- Authors: Jesse S. Ghashti and John R. J. Thompson
- Abstract要約: 異種性を測定するために混在するカーネルを用いて,クロスバリデーションされた最適なカーネル帯域幅を持つメトリクスを提案する。
提案手法は,シミュレーションおよび実世界のデータセット上で,既存の距離ベースクラスタリングアルゴリズムを用いてクラスタリング精度を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distance-based clustering and classification are widely used in various
fields to group mixed numeric and categorical data. A predefined distance
measurement is used to cluster data points based on their dissimilarity. While
there exist numerous distance-based measures for data with pure numerical
attributes and several ordered and unordered categorical metrics, an optimal
distance for mixed-type data is an open problem. Many metrics convert numerical
attributes to categorical ones or vice versa. They handle the data points as a
single attribute type or calculate a distance between each attribute separately
and add them up. We propose a metric that uses mixed kernels to measure
dissimilarity, with cross-validated optimal kernel bandwidths. Our approach
improves clustering accuracy when utilized for existing distance-based
clustering algorithms on simulated and real-world datasets containing pure
continuous, categorical, and mixed-type data.
- Abstract(参考訳): 距離に基づくクラスタリングと分類は、様々な分野において、混合数値と分類データを分類するために広く使われている。
事前定義された距離測定は、その相似性に基づいてデータポイントをクラスタリングする。
純粋な数値属性を持つデータと、順序付きおよび順序なしの分類指標を持つデータには、多くの距離に基づく測度があるが、混合型データの最適距離は未解決の問題である。
多くのメトリクスは、数値属性を分類属性に変換する。
データポイントを単一の属性タイプとして扱うか、それぞれの属性間の距離を別々に計算して追加する。
本研究では,混合カーネルを用いて異種性を測定し,最適カーネル帯域幅を推定するメトリックを提案する。
提案手法は, 完全連続, カテゴリ, 混合型データを含む実世界のシミュレーションデータセット上で, 既存の距離ベースクラスタリングアルゴリズムを用いてクラスタリング精度を向上させる。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。
ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。
少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文 参考訳(メタデータ) (2023-02-13T17:09:59Z) - A new nonparametric interpoint distance-based measure for assessment of
clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。
提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文 参考訳(メタデータ) (2022-10-01T04:27:54Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on
Multi-scale Data [34.89460002735166]
マルチスケールクラスタデータにスペクトルクラスタリングを適用する際の問題点について検討する。
マルチスケールデータの場合、スパースクラスタのオブジェクトが遠く離れているため、距離ベースの類似性は有効ではない。
係数行列を正規化するためにトレースラッソを適用するアルゴリズムCASTを提案する。
論文 参考訳(メタデータ) (2020-06-08T09:46:35Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。