Fugu-MT 論文翻訳(概要): Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning

論文の概要: Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning

arxiv url: http://arxiv.org/abs/2306.01890v3
Date: Fri, 11 Oct 2024 16:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 17:53:22.825964
Title: Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning
Title（参考訳）: カーネルメトリック学習による混合型距離収縮とクラスタリングの選択
Authors: Jesse S. Ghashti, John R. J. Thompson,
Abstract要約: 我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Distance-based clustering and classification are widely used in various fields to group mixed numeric and categorical data. In many algorithms, a predefined distance measurement is used to cluster data points based on their dissimilarity. While there exist numerous distance-based measures for data with pure numerical attributes and several ordered and unordered categorical metrics, an efficient and accurate distance for mixed-type data that utilizes the continuous and discrete properties simulatenously is an open problem. Many metrics convert numerical attributes to categorical ones or vice versa. They handle the data points as a single attribute type or calculate a distance between each attribute separately and add them up. We propose a metric called KDSUM that uses mixed kernels to measure dissimilarity, with cross-validated optimal bandwidth selection. We demonstrate that KDSUM is a shrinkage method from existing mixed-type metrics to a uniform dissimilarity metric, and improves clustering accuracy when utilized in existing distance-based clustering algorithms on simulated and real-world datasets containing continuous-only, categorical-only, and mixed-type data.
Abstract（参考訳）: 距離に基づくクラスタリングと分類は、様々な分野において、混合数値と分類データを分類するために広く使われている。多くのアルゴリズムでは、その相似性に基づいてデータポイントをクラスタリングするために、事前定義された距離測定が使用される。純粋に数値的な属性を持つデータと順序づけられていない分類指標を持つデータには、多くの距離に基づく測度があるが、連続的および離散的な性質をシミュレートした混合型データに対する効率的かつ正確な距離は、オープンな問題である。多くのメトリクスは、数値属性を分類属性に変換するか、あるいはその逆に変換する。データポイントを単一の属性タイプとして扱うか、それぞれの属性間の距離を別々に計算して追加する。異種性を測定するために混在カーネルを用いたKDSUMと呼ばれるメトリクスを提案する。我々は、KDSUMが、既存の混合型メトリックから均一な異種メトリックへの縮小方法であり、連続的、分類的、混合型データを含む実世界のデータセット上で、既存の距離ベースクラスタリングアルゴリズムで使用される場合、クラスタリング精度を向上させることを実証した。

関連論文リスト

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering [60.05209293008078]
クラスタ分析のための異種属性再構成と表現(HARR)学習パラダイム HarR はパラメータフリーで収束保証され、異なる要求されたクラスタ数 $k$ に対してより効果的に自己適応することができる。
論文参考訳（メタデータ） (2026-03-03T08:13:16Z)
Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文参考訳（メタデータ） (2025-11-12T06:57:24Z)
CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering [54.20010572648918]
分類データ間の距離を直接計算できないため、分類データのクラスタリングには適切な距離メートル法が不可欠である。本稿では,クラスタ内の属性の異なる分布に基づいて距離を競合的に更新できる分類データクラスタリングのためのクラスタカストマイズド距離メトリックを提案する。
論文参考訳（メタデータ） (2025-11-08T03:24:22Z)
K*-Means: A Parameter-free Clustering Algorithm [55.20132267309382]
k*-meansは、kや他のパラメータをセットする必要がない新しいクラスタリングアルゴリズムである。最小記述長の原理を用いて、クラスタの分割とマージによって最適なクラスタ数k*を自動的に決定する。 k*-平均が収束することが保証されることを証明し、kが未知のシナリオにおいて既存のメソッドよりも著しく優れていることを実験的に証明する。
論文参考訳（メタデータ） (2025-05-17T08:41:07Z)
Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文参考訳（メタデータ） (2024-11-19T08:23:25Z)
Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文参考訳（メタデータ） (2023-06-18T08:46:06Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文参考訳（メタデータ） (2023-02-13T17:09:59Z)
A new nonparametric interpoint distance-based measure for assessment of clustering [0.0]
データセットに存在するクラスタの最適な数を特定するために,新たなインターポイント距離に基づく測度を提案する。提案する基準は任意のクラスタリングアルゴリズムと互換性があり,未知数のクラスタを決定するために使用できる。
論文参考訳（メタデータ） (2022-10-01T04:27:54Z)
Anomaly Clustering: Grouping Images into Coherent Clusters of Anomaly Types [60.45942774425782]
我々は異常クラスタリングを導入し、その目標はデータを異常型の一貫性のあるクラスタにまとめることである。これは異常検出とは違い、その目標は異常を通常のデータから分割することである。パッチベースの事前訓練されたディープ埋め込みとオフザシェルフクラスタリング手法を用いた,単純で効果的なクラスタリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-21T23:11:33Z)
Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文参考訳（メタデータ） (2021-10-06T06:19:30Z)
Kernel distance measures for time series, random fields and other structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。 kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文参考訳（メタデータ） (2021-09-29T22:54:17Z)
Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。 RTKMは他の方法と競合することを示す。
論文参考訳（メタデータ） (2021-08-16T15:49:40Z)
Similarity-based Distance for Categorical Clustering using Space Structure [5.543220407902113]
我々は,分類データのオブジェクト間の距離を求めるために,新しい距離距離,類似度ベース距離(SBD)を提案している。我々の提案した距離(SBD)は、分類データセットで使用する場合、k-modesや他のSBC型アルゴリズムのような既存のアルゴリズムよりも大幅に優れています。
論文参考訳（メタデータ） (2020-11-19T15:18:26Z)
LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。 CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文参考訳（メタデータ） (2020-06-17T17:58:10Z)
CAST: A Correlation-based Adaptive Spectral Clustering Algorithm on Multi-scale Data [34.89460002735166]
マルチスケールクラスタデータにスペクトルクラスタリングを適用する際の問題点について検討する。マルチスケールデータの場合、スパースクラスタのオブジェクトが遠く離れているため、距離ベースの類似性は有効ではない。係数行列を正規化するためにトレースラッソを適用するアルゴリズムCASTを提案する。
論文参考訳（メタデータ） (2020-06-08T09:46:35Z)
Stable and consistent density-based clustering via multiparameter persistence [77.34726150561087]
トポロジカルデータ解析による次数-リップス構成について考察する。我々は,入力データの摂動に対する安定性を,通信間距離を用いて解析する。私たちはこれらのメソッドを、Persistableと呼ばれる密度ベースのクラスタリングのためのパイプラインに統合します。
論文参考訳（メタデータ） (2020-05-18T19:45:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。