論文の概要: A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data
- arxiv url: http://arxiv.org/abs/2407.03389v5
- Date: Tue, 07 Oct 2025 08:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.400335
- Title: A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data
- Title(参考訳): 混合型データのクラスタリングのための決定論的情報ボトルネック法
- Authors: Efthymios Costa, Ioanna Papatsouma, Angelos Markos,
- Abstract要約: 混合型データ,すなわち連続変数と分類変数の両方からなるデータをクラスタリングするための情報理論手法を提案する。
提案手法は、一般化された製品カーネルを通して、インフォメーション・ボトルネックの原理を異種データに拡張する。
提案手法はDIBmixと呼ばれ,従来の4つの手法と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present an information-theoretic method for clustering mixed-type data, that is, data consisting of both continuous and categorical variables. The proposed approach extends the Information Bottleneck principle to heterogeneous data through generalised product kernels, integrating continuous, nominal, and ordinal variables within a unified optimization framework. We address the following challenges: developing a systematic bandwidth selection strategy that equalises contributions across variable types, and proposing an adaptive hyperparameter updating scheme that ensures a valid solution into a predetermined number of potentially imbalanced clusters. Through simulations on 28,800 synthetic data sets and ten publicly available benchmarks, we demonstrate that the proposed method, named DIBmix, achieves superior performance compared to four established methods (KAMILA, K-Prototypes, FAMD with K-Means, and PAM with Gower's dissimilarity). Results show DIBmix particularly excels when clusters exhibit size imbalances, data contain low or moderate cluster overlap, and categorical and continuous variables are equally represented. The method presents a significant advantage over traditional centroid-based algorithms, establishing DIBmix as a competitive and theoretically grounded alternative for mixed-type data clustering.
- Abstract(参考訳): 本稿では,混合型データ,すなわち連続変数と分類変数の両方からなるデータをクラスタリングするための情報理論手法を提案する。
提案手法は、一般化された製品カーネルを通じて、インフォメーション・ブートルネックの原理を異種データに拡張し、統一最適化フレームワークに連続変数、名目変数、順序変数を統合する。
可変型間でのコントリビューションを等しくする体系的帯域幅選択戦略を開発し,有効解を所定の数の潜在的不均衡クラスタに確保する適応型ハイパーパラメータ更新スキームを提案する。
28800の合成データセットと10の公開ベンチマークのシミュレーションにより、提案手法は4つの確立された手法(KAMILA, K-Prototypes, FAMD with K-Means, PAM with Gower's dissimilarity)と比較して優れた性能を発揮することを示した。
結果、DIBmixは、クラスタのサイズ不均衡を示す場合、データは低あるいは中程度のクラスタオーバーラップを含む場合、そしてカテゴリ変数と連続変数が等しく表される場合、特に優れている。
この手法は、従来のセントロイドベースのアルゴリズムよりも大きな優位性を示し、混合型データクラスタリングの競合的かつ理論的基盤となるDIBmixを確立する。
関連論文リスト
- Clustering Approaches for Mixed-Type Data: A Comparative Study [0.0]
混在型データのクラスタリングは、このタスクに適合するアプローチがほとんどないため、課題である。
本研究は,これらの手法の現状を考察し,様々なシミュレーションモデルを用いて比較する。
KAMILA, LCM, k-prototypes は, 調整型ランドインデックス (ARI) に関して, 最高の性能を示した。
論文 参考訳(メタデータ) (2025-11-24T22:18:23Z) - CAS Condensed and Accelerated Silhouette: An Efficient Method for Determining the Optimal K in K-Means Clustering [0.0]
本稿では,クラスタリングにおけるkの最適値を選択するための戦略を提案する。
複雑なデータ環境におけるクラスタリング精度と計算効率のバランスを達成することに焦点を当てている。
提案手法は,高次元データセット上での実行時間を最大99%高速化する。
論文 参考訳(メタデータ) (2025-07-11T05:03:16Z) - Unsupervised Learning: Comparative Analysis of Clustering Techniques on High-Dimensional Data [0.29465623430708915]
本稿では,高次元データセット上でのK平均,DBSCAN,スペクトルクラスタリングを包括的に解析する。
本稿では,複数次元削減技術を用いたクラスタリング性能の評価を行う新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T20:38:04Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - AdaptiveMDL-GenClust: A Robust Clustering Framework Integrating Normalized Mutual Information and Evolutionary Algorithms [0.0]
我々は,最小記述長(MDL)原理と遺伝的最適化アルゴリズムを組み合わせたロバストクラスタリングフレームワークを提案する。
このフレームワークは、初期クラスタリングソリューションを生成するためのアンサンブルクラスタリングアプローチから始まり、MDL誘導評価関数を使用して洗練され、遺伝的アルゴリズムによって最適化される。
実験の結果,従来のクラスタリング手法を一貫して上回り,精度の向上,安定性の向上,バイアス低減を実現している。
論文 参考訳(メタデータ) (2024-11-26T20:26:14Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Mixture of multilayer stochastic block models for multiview clustering [0.0]
本稿では,異なる情報源から得られた複数のクラスタリングを集約する独自の手法を提案する。
モデルパラメータの同定可能性を確立し,これらのパラメータを推定するために変分ベイズEMアルゴリズムを提案する。
この手法は、グローバルな食品取引網の分析に利用され、興味のある構造に繋がる。
論文 参考訳(メタデータ) (2024-01-09T17:15:47Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - Likelihood Adjusted Semidefinite Programs for Clustering Heterogeneous
Data [16.153709556346417]
クラスタリングは広くデプロイされた学習ツールである。
iLA-SDPはEMよりも感度が低く、高次元データでは安定である。
論文 参考訳(メタデータ) (2022-09-29T21:03:13Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Data Clustering as an Emergent Consensus of Autonomous Agents [0.0]
本稿では,1次密度誘導コンセンサスプロトコルに基づくデータセグメンテーション手法を提案する。
データセグメンテーションの停止基準につながるコンセンサスモデルを数学的に厳密に分析する。
論文 参考訳(メタデータ) (2022-04-22T09:11:35Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Deep Conditional Gaussian Mixture Model for Constrained Clustering [7.070883800886882]
制約付きクラスタリングは、部分的にラベル付けされたデータの増加量に関する事前情報を利用することができる。
本稿では、直感的で解釈可能で、勾配変動推論の枠組みで効率的に訓練できる制約付きクラスタリングのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-11T13:38:09Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - Too Much Information Kills Information: A Clustering Perspective [6.375668163098171]
分散に基づくk-クラスタリングタスクに対して,k-平均クラスタリング(k-means clustering)が広く知られていることを含む,単純かつ斬新なアプローチを提案する。
提案手法は、与えられたデータセットからサンプリングサブセットを選択し、サブセット内のデータ情報のみに基づいて決定する。
ある仮定では、結果のクラスタリングは、高い確率で分散に基づく目的の最適度を推定するのに十分である。
論文 参考訳(メタデータ) (2020-09-16T01:54:26Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。