論文の概要: Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning
- arxiv url: http://arxiv.org/abs/2306.01890v3
- Date: Fri, 11 Oct 2024 16:16:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:27:54.340153
- Title: Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning
- Title(参考訳): カーネルメトリック学習による混合型距離収縮とクラスタリングの選択
- Authors: Jesse S. Ghashti, John R. J. Thompson,
- Abstract要約: 我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. In many algorithms, a predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an efficient and accurate distance for mixed-type data that utilizes the continuous and discrete properties simulatenously is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric called KDSUM that uses mixed kernels to measure dissimilarity, with cross-validated optimal bandwidth selection. We demonstrate that KDSUM is a shrinkage method from existing mixed-type metrics to a uniform dissimilarity metric, and improves clustering accuracy when utilized in existing distance-based clustering algorithms on simulated and real-world datasets containing continuous-only, categorical-only, and mixed-type data.
- Abstract(参考訳): 距離に基づくクラスタリングと分類は、様々な分野において、混合数値と分類データを分類するために広く使われている。
多くのアルゴリズムでは、その相似性に基づいてデータポイントをクラスタリングするために、事前定義された距離測定が使用される。
純粋に数値的な属性を持つデータと順序づけられていない分類指標を持つデータには、多くの距離に基づく測度があるが、連続的および離散的な性質をシミュレートした混合型データに対する効率的かつ正確な距離は、オープンな問題である。
多くのメトリクスは、数値属性を分類属性に変換するか、あるいはその逆に変換する。
データポイントを単一の属性タイプとして扱うか、それぞれの属性間の距離を別々に計算して追加する。
異種性を測定するために混在カーネルを用いたKDSUMと呼ばれるメトリクスを提案する。
我々は、KDSUMが、既存の混合型メトリックから均一な異種メトリックへの縮小方法であり、連続的、分類的、混合型データを含む実世界のデータセット上で、既存の距離ベースクラスタリングアルゴリズムで使用される場合、クラスタリング精度を向上させることを実証した。
関連論文リスト
- Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。
ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。
少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文 参考訳(メタデータ) (2023-02-13T17:09:59Z) - A new nonparametric interpoint distance-based measure for assessment of
clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。
提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文 参考訳(メタデータ) (2022-10-01T04:27:54Z) - Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly
Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。
これは異常検出とは違い、その目標は異常を通常のデータから分割することである。
パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-21T23:11:33Z) - Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。
本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。
私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文 参考訳(メタデータ) (2021-10-06T06:19:30Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Similarity-based Distance for Categorical Clustering using Space
Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。
我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-11-19T15:18:26Z) - CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on
Multi-scale Data [34.89460002735166]
マルチスケールクラスタデータにスペクトルクラスタリングを適用する際の問題点について検討する。
マルチスケールデータの場合、スパースクラスタのオブジェクトが遠く離れているため、距離ベースの類似性は有効ではない。
係数行列を正規化するためにトレースラッソを適用するアルゴリズムCASTを提案する。
論文 参考訳(メタデータ) (2020-06-08T09:46:35Z) - Stable and consistent density-based clustering via multiparameter
persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。
我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。
私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文 参考訳(メタデータ) (2020-05-18T19:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。