論文の概要: Co-clustering based exploratory analysis of mixed-type data tables
- arxiv url: http://arxiv.org/abs/2212.11728v1
- Date: Thu, 22 Dec 2022 14:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:18:15.644607
- Title: Co-clustering based exploratory analysis of mixed-type data tables
- Title(参考訳): 混合型データテーブルの共クラスタリングに基づく探索解析
- Authors: Aichetou Bouchareb (SAMM), Marc Boull\'e, Fabrice Cl\'erot, Fabrice
Rossi (CEREMADE)
- Abstract要約: 本稿では,2段階の手法に基づく混合データクラスタリング手法を提案する。
最初のステップでは、すべての変数は、アナリストが選択した多数のビンに従って双項化されます。
第2のステップでは、インスタンスとバイナリ変数をクラスタリングして、インスタンスのグループと変数部分のグループを生成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-clustering is a class of unsupervised data analysis techniques that
extract the existing underlying dependency structure between the instances and
variables of a data table as homogeneous blocks. Most of those techniques are
limited to variables of the same type. In this paper, we propose a mixed data
co-clustering method based on a two-step methodology. In the first step, all
the variables are binarized according to a number of bins chosen by the
analyst, by equal frequency discretization in the numerical case, or keeping
the most frequent values in the categorical case. The second step applies a
co-clustering to the instances and the binary variables, leading to groups of
instances and groups of variable parts. We apply this methodology on several
data sets and compare with the results of a Multiple Correspondence Analysis
applied to the same data.
- Abstract(参考訳): 共クラスタリング(co-clustering)は、データテーブルのインスタンスと変数間の既存の依存性構造を均質なブロックとして抽出する、教師なしのデータ分析手法のクラスである。
これらのテクニックのほとんどは、同じタイプの変数に限られています。
本稿では,二段階法に基づく混合データ共クラスタリング手法を提案する。
最初のステップでは、すべての変数は、アナリストが選択した多くのビンに従って二項化され、数値ケースで等しい周波数の離散化、カテゴリーケースで最も頻繁な値を保持する。
第2のステップは、インスタンスとバイナリ変数に共クラスタを適用することで、インスタンスのグループと可変部分のグループに繋がる。
この手法を複数のデータセットに適用し,同一データに適用した複数対応分析の結果と比較する。
関連論文リスト
- Mixture of multilayer stochastic block models for multiview clustering [0.0]
本稿では,異なる情報源から得られた複数のクラスタリングを集約する独自の手法を提案する。
モデルパラメータの同定可能性を確立し,これらのパラメータを推定するために変分ベイズEMアルゴリズムを提案する。
この手法は、グローバルな食品取引網の分析に利用され、興味のある構造に繋がる。
論文 参考訳(メタデータ) (2024-01-09T17:15:47Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Eigenvalue-based Incremental Spectral Clustering [0.0]
本稿では,インクリメンタルスペクトルクラスタリング手法を提案する。
1) データを管理可能なサブセットに分割し、(2) 各サブセットをクラスタ化し、(3) 固有値スペクトルの類似性に基づいて異なるサブセットからクラスタをマージし、全体のクラスタを形成する。
論文 参考訳(メタデータ) (2023-08-18T13:42:41Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Model Based Co-clustering of Mixed Numerical and Binary Data [0.0]
コクラスタリング(co-clustering)は、データマトリックスの行と列の間の基盤となるブロック構造を抽出するデータマイニング手法である。
本稿では,遅延ブロックモデルに基づく協調クラスタリングを混合データの場合にまで拡張する。
論文 参考訳(メタデータ) (2022-12-22T14:16:08Z) - Consistency between ordering and clustering methods for graphs [0.8594140167290096]
本稿では,複数のクラスタリングと順序付け手法の方法論的関係について検討する。
本稿では,ラベル連続度誤差と呼ばれる尺度を提案し,シーケンスとパーティション間の一貫性の度合いを一般化的に定量化する。
合成および実世界のデータセットに基づいて,オーダリング手法がモジュール構造を識別する範囲を評価する。
論文 参考訳(メタデータ) (2022-08-27T05:55:26Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Robust Trimmed k-means [70.88503833248159]
本稿では,外乱点とクラスタポイントを同時に識別するRobust Trimmed k-means (RTKM)を提案する。
RTKMは他の方法と競合することを示す。
論文 参考訳(メタデータ) (2021-08-16T15:49:40Z) - Group Heterogeneity Assessment for Multilevel Models [68.95633278540274]
多くのデータセットは固有のマルチレベル構造を含む。
この構造を考慮に入れることは、そのようなデータ上で行われた統計分析の正確性と校正にとって重要である。
本稿では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-06T12:42:04Z) - Conjoined Dirichlet Process [63.89763375457853]
我々はディリクレ過程に基づく新しい非パラメトリック確率的ビクラスタリング法を開発し、列と列の双方に強い共起を持つビクラスタを同定する。
本手法はテキストマイニングと遺伝子発現解析の2つの異なる応用に適用し,既存の手法に比べて多くの設定でビクラスタ抽出を改善することを示す。
論文 参考訳(メタデータ) (2020-02-08T19:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。