論文の概要: Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering
- arxiv url: http://arxiv.org/abs/2603.04458v1
- Date: Tue, 03 Mar 2026 08:13:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.900598
- Title: Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering
- Title(参考訳): 不均一属性データクラスタリングのための統一距離メトリクスの学習
- Authors: Yiqun Zhang, Mingjie Zhao, Yizhou Chen, Yang Lu, Yiu-ming Cheung,
- Abstract要約: クラスタ分析のための異種属性再構成と表現(HARR)学習パラダイム
HarR はパラメータフリーで収束保証され、異なる要求されたクラスタ数 $k$ に対してより効果的に自己適応することができる。
- 参考スコア(独自算出の注目度): 60.05209293008078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets composed of numerical and categorical attributes (also called mixed data hereinafter) are common in real clustering tasks. Differing from numerical attributes that indicate tendencies between two concepts (e.g., high and low temperature) with their values in well-defined Euclidean distance space, categorical attribute values are different concepts (e.g., different occupations) embedded in an implicit space. Simultaneously exploiting these two very different types of information is an unavoidable but challenging problem, and most advanced attempts either encode the heterogeneous numerical and categorical attributes into one type, or define a unified metric for them for mixed data clustering, leaving their inherent connection unrevealed. This paper, therefore, studies the connection among any-type of attributes and proposes a novel Heterogeneous Attribute Reconstruction and Representation (HARR) learning paradigm accordingly for cluster analysis. The paradigm transforms heterogeneous attributes into a homogeneous status for distance metric learning, and integrates the learning with clustering to automatically adapt the metric to different clustering tasks. Differing from most existing works that directly adopt defined distance metrics or learn attribute weights to search clusters in a subspace. We propose to project the values of each attribute into unified learnable multiple spaces to more finely represent and learn the distance metric for categorical data. HARR is parameter-free, convergence-guaranteed, and can more effectively self-adapt to different sought number of clusters $k$. Extensive experiments illustrate its superiority in terms of accuracy and efficiency.
- Abstract(参考訳): 数値的および分類的属性(以下、混合データ)からなるデータセットは、実際のクラスタリングタスクで一般的である。
ユークリッド距離空間における2つの概念(例えば、高温、低温)とそれらの値の間の傾向を示す数値的属性から、カテゴリー的属性値は暗黙空間に埋め込まれた異なる概念(例えば、異なる職業)である。
これら2つの非常に異なるタイプの情報を同時に活用することは避けられないが難しい問題であり、最も先進的な試みは不均一な数値属性とカテゴリ属性を1つのタイプにエンコードするか、混合データクラスタリングのための統一されたメトリックを定義するか、固有の接続を未発見のままにしておくかのいずれかである。
そこで本研究では,任意の属性間の関連性について検討し,クラスタ分析に基づく新しい異種属性再構成・表現(HARR)学習パラダイムを提案する。
このパラダイムは、異種属性を距離メトリック学習のための均質な状態に変換し、学習とクラスタリングを統合して、メトリックを異なるクラスタリングタスクに自動的に適応させる。
定義された距離のメトリクスを直接採用したり、サブスペース内のクラスタを検索するために属性の重みを学習する、既存のほとんどの作業から逸脱する。
本稿では,各属性の値を統合学習可能な複数の空間に投影し,分類データの距離メトリックをよりきめ細やかに表現し,学習することを提案する。
HARR はパラメータフリーで収束保証され、異なる要求されたクラスタ数$k$ に対してより効果的に自己適応することができる。
大規模な実験は、精度と効率の点でその優位性を示している。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。
本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文 参考訳(メタデータ) (2025-11-12T06:57:24Z) - Hybrid Discriminative Attribute-Object Embedding Network for Compositional Zero-Shot Learning [83.10178754323955]
HDA-OE(Hybrid Discriminative Attribute-Object Embedding)ネットワークは,属性とオブジェクトの視覚表現との複雑な相互作用を解決するために提案される。
トレーニングデータの多様性を高めるため、HDA-OEは属性駆動型データ合成(ADDS)モジュールを導入した。
HDA-OEは、モデルの識別能力をさらに向上するため、サブクラス駆動の差別的埋め込み(SDDE)モジュールを導入している。
提案モデルを3つのベンチマークデータセットで評価し,その妥当性と信頼性を検証した。
論文 参考訳(メタデータ) (2024-11-28T09:50:25Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。
我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文 参考訳(メタデータ) (2023-06-02T19:51:48Z) - Transferable Deep Metric Learning for Clustering [1.2762298148425795]
高い空間におけるクラスタリングは難しい作業であり、通常の次元距離のメトリクスは次元性の呪いの下ではもはや適切ではないかもしれない。
ラベル付きデータセットでメトリクスを学習し、異なるデータセットにそれを適用できることを示します。
少数のラベル付きトレーニングデータセットと浅いネットワークを使用しながら、最先端技術と競合する結果を得る。
論文 参考訳(メタデータ) (2023-02-13T17:09:59Z) - Unsupervised Heterogeneous Coupling Learning for Categorical
Representation [50.1603042640492]
この研究は、結合間の相互作用を解き放ち、結合したカテゴリデータを表現するためのUNTIE(UNsupervised heTerogeneous couplIng lEarning)アプローチを導入する。
UNTIEは、ヘテロジニアスおよび階層的値-オブジェクト結合の教師なし表現学習のために、カーネルk平均目的関数を効率よく最適化する。
UNTIEで学習した表現は、最先端のカテゴリ表現やディープ表現モデルに対して大幅な性能改善を行う。
論文 参考訳(メタデータ) (2020-07-21T11:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。