Fugu-MT 論文翻訳(概要): Categorical Data Clustering via Value Order Estimated Distance Metric Learning

論文の概要: Categorical Data Clustering via Value Order Estimated Distance Metric Learning

arxiv url: http://arxiv.org/abs/2411.15189v2
Date: Sun, 16 Feb 2025 12:03:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 16:13:23.175147
Title: Categorical Data Clustering via Value Order Estimated Distance Metric Learning
Title（参考訳）: 距離距離距離学習によるカテゴリーデータクラスタリング
Authors: Yiqun Zhang, Mingjie Zhao, Hong Jia, Yang Lu, Mengke Li, Yiu-ming Cheung,
Abstract要約: 本稿では,属性値間の順序関係がクラスタリング精度の決定的要因であることを示す。本稿では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。このアルゴリズムは収束保証によりより優れたクラスタリング精度を実現する。
参考スコア（独自算出の注目度）: 31.851890008893847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Categorical data composed of qualitative valued attributes are ubiquitous in machine learning tasks. Due to the lack of well-defined metric space, categorical data distributions are difficult to be intuitively understood. Clustering is a popular data analysis technique suitable for data distribution understanding. However, the success of clustering often relies on reasonable distance metrics, which happens to be what categorical data naturally lack. This paper therefore introduces a new finding that the order relation among attribute values is the decisive factor in clustering accuracy, and is also the key to understanding categorical data clusters, because the essence of clustering is to order the clusters in terms of their admission to samples. To obtain the orders, we propose a new learning paradigm that allows joint learning of clusters and the orders. It alternatively partitions the data into clusters based on the distance metric built upon the orders and estimates the most likely orders according to the clusters. The algorithm achieves superior clustering accuracy with a convergence guarantee, and the learned orders facilitate the understanding of the non-intuitive cluster distribution of categorical data. Extensive experiments with ablation studies, statistical evidence, and case studies have validated the new insight into the importance of value order and the method proposition. The source code is temporarily opened in https://anonymous.4open.science/r/OCL-demo.
Abstract（参考訳）: 定性的価値属性からなるカテゴリデータは、機械学習タスクにおいてユビキタスである。適切に定義された距離空間が欠如しているため、分類データの分布は直観的に理解することが難しい。クラスタリングは、データ分散理解に適した一般的なデータ分析技術である。しかし、クラスタリングの成功は、しばしば合理的な距離のメトリクスに依存します。そこで本研究では,属性値間の順序関係がクラスタリングの精度の決定的要因であり,クラスタリングの本質は,クラスタリングがサンプルへの入力を順序付けすることにあるため,分類データクラスタを理解する上でも重要な要素であることを示す。そこで本研究では,クラスタと注文の協調学習を可能にする新しい学習パラダイムを提案する。あるいは、注文に基づいて構築された距離メトリックに基づいてデータをクラスタに分割し、クラスタに応じて最も可能性の高い注文を見積もる。アルゴリズムは収束保証によりより優れたクラスタリング精度を実現し、学習順序はカテゴリデータの非直観的クラスタ分布の理解を容易にする。アブレーション研究、統計的証拠、ケーススタディによる大規模な実験は、価値秩序の重要性と方法の提案に関する新たな洞察を検証した。ソースコードはhttps://anonymous.4open.science/r/OCL-demoで一時的に公開されている。

関連論文リスト

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering [60.05209293008078]
クラスタ分析のための異種属性再構成と表現(HARR)学習パラダイム HarR はパラメータフリーで収束保証され、異なる要求されたクラスタ数 $k$ に対してより効果的に自己適応することができる。
論文参考訳（メタデータ） (2026-03-03T08:13:16Z)
Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。 8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文参考訳（メタデータ） (2026-01-03T11:37:46Z)
Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文参考訳（メタデータ） (2025-11-12T06:57:24Z)
CADM: Cluster-customized Adaptive Distance Metric for Categorical Data Clustering [54.20010572648918]
分類データ間の距離を直接計算できないため、分類データのクラスタリングには適切な距離メートル法が不可欠である。本稿では,クラスタ内の属性の異なる分布に基づいて距離を競合的に更新できる分類データクラスタリングのためのクラスタカストマイズド距離メトリックを提案する。
論文参考訳（メタデータ） (2025-11-08T03:24:22Z)
Clustering by Attention: Leveraging Prior Fitted Transformers for Data Partitioning [3.4530027457862005]
メタラーニングに基づく新しいクラスタリング手法を提案する。我々は,クラスタリングを行うために事前学習したPFN(Predior-Data Fitted Transformer Network)を用いている。我々の手法は最先端のクラスタリング技術よりも優れていることを示す。
論文参考訳（メタデータ） (2025-07-27T17:53:19Z)
Hyperoctant Search Clustering: A Method for Clustering Data in High-Dimensional Hyperspheres [0.0]
座標の符号(ハイパーロクタント)によって定義される空間の領域に適用される位相的アプローチに基づく新しいクラスタリング法を提案する。密度基準によれば、この方法はグラフの分割に基づいてデータポイントのクラスタを構築する。テキストマイニングにおいて重要な課題である話題検出の応用を選択する。
論文参考訳（メタデータ） (2025-03-10T23:41:44Z)
Personalized Clustering via Targeted Representation Learning [12.685373069492448]
クラスタリングは伝統的に、ラベルのないデータ内の自然なグループ構造を明らかにすることを目的としています。ターゲット表現学習を明示的に行うパーソナライズされたクラスタリング手法を提案する。
論文参考訳（メタデータ） (2024-12-18T10:28:51Z)
ABCDE: Application-Based Cluster Diff Evals [49.1574468325115]
それは実用性を目指しており、アイテムはアプリケーション固有の重要な値を持つことができ、クラスタリングがどちらが優れているかを判断するときに人間の判断を使うのは粗悪であり、アイテムの任意のスライスのためのメトリクスを報告できる。クラスタリング品質の差分を測定するアプローチは、高価な地平を前もって構築し、それに関して各クラスタリングを評価する代わりに、ABCDEはクラスタリング間の実際の差分に基づいて、判定のための質問をサンプリングする。
論文参考訳（メタデータ） (2024-07-31T08:29:35Z)
Spectral Clustering of Categorical and Mixed-type Data via Extra Graph Nodes [0.0]
本稿では,数値情報と分類情報の両方をスペクトルクラスタリングアルゴリズムに組み込むための,より自然な方法について検討する。データの属する可能性のある異なるカテゴリに対応する追加ノードの追加を提案し、それが解釈可能なクラスタリング対象関数に繋がることを示す。この単純なフレームワークは、分類のみのデータに対する線形時間スペクトルクラスタリングアルゴリズムに繋がることを示す。
論文参考訳（メタデータ） (2024-03-08T20:49:49Z)
Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文参考訳（メタデータ） (2023-08-13T18:12:28Z)
Using Decision Trees for Interpretable Supervised Clustering [0.0]
教師付きクラスタリングは、高い確率密度でラベル付きデータのクラスタを形成することを目的としている。特に、特定のクラスのデータのクラスタを見つけ、包括的なルールのセットでクラスタを記述することに興味があります。
論文参考訳（メタデータ） (2023-07-16T17:12:45Z)
A testing-based approach to assess the clusterability of categorical data [6.7937877930001775]
TestCatは、分析的な$p$-valueで分類データのクラスタ性を評価するためのテストベースのアプローチである。提案手法をベンチマーク分類データセットに適用することにより,TestCatが数値データに対してそれらの解より優れていることを示す。
論文参考訳（メタデータ） (2023-07-14T13:50:00Z)
Actively Supervised Clustering for Open Relation Extraction [42.114747195195655]
本稿では,OpenREのためのアクティブなクラスタリングという,新しい設定を提案する。設定の鍵は、どのインスタンスにラベルを付けるかを選択することである。本稿では,未知の関係のクラスタを動的に発見する手法を提案する。
論文参考訳（メタデータ） (2023-06-08T06:55:02Z)
Mixed-type Distance Shrinkage and Selection for Clustering via Kernel Metric Learning [0.0]
我々は、混合カーネルを用いて異種性を測定するKDSUMと呼ばれる計量を提案する。我々は、KDSUMが既存の混合型メトリクスから均一な異性度メトリクスへの縮小法であることを実証した。
論文参考訳（メタデータ） (2023-06-02T19:51:48Z)
Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文参考訳（メタデータ） (2023-05-12T03:01:41Z)
Dynamic Conceptional Contrastive Learning for Generalized Category Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。 GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-30T14:04:39Z)
Hard Regularization to Prevent Deep Online Clustering Collapse without Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。本稿では,データ拡張を必要としない手法を提案する。
論文参考訳（メタデータ） (2023-03-29T08:23:26Z)
Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文参考訳（メタデータ） (2022-08-08T17:33:32Z)
Seeking the Truth Beyond the Data. An Unsupervised Machine Learning Approach [0.0]
クラスタリングは、ラベルのない要素/オブジェクトがグループ化される、教師なしの機械学習方法論である。この記事では、最も広く使われているクラスタリング手法について詳しく説明する。 3つのデータセットに基づいて、これらのアルゴリズムのクラスタリング効率の比較を強調している。
論文参考訳（メタデータ） (2022-07-14T14:22:36Z)
Clustering Plotted Data by Image Segmentation [12.443102864446223]
クラスタリングアルゴリズムは、ラベルなしデータのパターンを検出する主要な分析手法の1つである。本稿では,人間のクラスタリングデータに着想を得た,2次元空間におけるクラスタリングポイントの全く異なる方法を提案する。私たちのアプローチであるVisual Clusteringは、従来のクラスタリングアルゴリズムよりもいくつかのアドバンテージを持っています。
論文参考訳（メタデータ） (2021-10-06T06:19:30Z)
You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文参考訳（メタデータ） (2021-06-03T14:59:59Z)
Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文参考訳（メタデータ） (2020-12-16T10:49:36Z)
Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文参考訳（メタデータ） (2020-10-22T15:58:35Z)
Structured Graph Learning for Clustering and Semi-supervised Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文参考訳（メタデータ） (2020-08-31T08:41:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。