論文の概要: TabClustPFN: A Prior-Fitted Network for Tabular Data Clustering
- arxiv url: http://arxiv.org/abs/2601.21656v1
- Date: Thu, 29 Jan 2026 12:56:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.824723
- Title: TabClustPFN: A Prior-Fitted Network for Tabular Data Clustering
- Title(参考訳): TabClustPFN: タブラルデータクラスタリングのためのネットワーク
- Authors: Tianqi Zhao, Guanyang Wang, Yan Shuo Tan, Qiong Zhang,
- Abstract要約: データクラスタリングのためのネットワークであるTabClustPFNを紹介する。
クラスターの割り当てとクラスターの濃度の両方について、アモータイズされたベイズ推定を行う。
古典的、ディープ、アモート化されたクラスタリングベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 11.86976498650059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clustering tabular data is a fundamental yet challenging problem due to heterogeneous feature types, diverse data-generating mechanisms, and the absence of transferable inductive biases across datasets. Prior-fitted networks (PFNs) have recently demonstrated strong generalization in supervised tabular learning by amortizing Bayesian inference under a broad synthetic prior. Extending this paradigm to clustering is nontrivial: clustering is unsupervised, admits a combinatorial and permutation-invariant output space, and requires inferring the number of clusters. We introduce TabClustPFN, a prior-fitted network for tabular data clustering that performs amortized Bayesian inference over both cluster assignments and cluster cardinality. Pretrained on synthetic datasets drawn from a flexible clustering prior, TabClustPFN clusters unseen datasets in a single forward pass, without dataset-specific retraining or hyperparameter tuning. The model naturally handles heterogeneous numerical and categorical features and adapts to a wide range of clustering structures. Experiments on synthetic data and curated real-world tabular benchmarks show that TabClustPFN outperforms classical, deep, and amortized clustering baselines, while exhibiting strong robustness in out-of-the-box exploratory settings. Code is available at https://github.com/Tianqi-Zhao/TabClustPFN.
- Abstract(参考訳): 表データのクラスタリングは、不均一な特徴タイプ、多様なデータ生成機構、データセット間での転送可能な帰納バイアスの欠如など、基本的な課題である。
先行フィットネットワーク(PFNs)は、最近、広範囲な合成先行の下でベイズ推論を記憶することで、教師付き表層学習において強力な一般化を証明している。
クラスタリングは教師なし、組合せと置換不変の出力空間を認め、クラスタの数を推測する必要がある。
本研究では,クラスタの割り当てとクラスタの濃度の両方に対してベイズ推定を補正するタブ型クラスタリングのネットワークであるTabClustPFNを紹介する。
フレキシブルなクラスタリングから得られた合成データセットに基づいてトレーニングされたTabClustPFNクラスタは、データセット固有のリトレーニングやハイパーパラメータチューニングなしで、単一のフォワードパスでデータセットを目にしない。
このモデルは自然に不均一な数値的および分類的特徴を扱い、幅広いクラスタリング構造に適応する。
合成データと実世界の表式ベンチマークの実験により、TabClustPFNは古典的、ディープ、アモート化されたクラスタリングベースラインよりも優れており、アウト・オブ・ザ・ボックスの探索設定では強い堅牢性を示している。
コードはhttps://github.com/Tianqi-Zhao/TabClustPFNで入手できる。
関連論文リスト
- Transformers can do Bayesian Clustering [0.2578242050187029]
本稿では、事前データフィットネットワーク(PFN)を教師なしベイズクラスタリングに拡張するトランスフォーマーベースモデルであるCluster-PFNを提案する。
有限ガウス混合モデル(GMM)から生成された合成データセットに完全に訓練されたクラスタ-PFNは、クラスタの数とクラスタ割り当ての両方にわたる後部分布を推定することを学ぶ。
クラスタ-PFNは、欠落したデータ、現実世界のゲノムデータセットにおける命令ベースのベースラインよりも優れたパフォーマンス、高い欠落率を含む複雑なプリエントに基づいてトレーニングすることができる。
論文 参考訳(メタデータ) (2025-10-28T11:36:31Z) - Clustering by Attention: Leveraging Prior Fitted Transformers for Data Partitioning [3.4530027457862005]
メタラーニングに基づく新しいクラスタリング手法を提案する。
我々は,クラスタリングを行うために事前学習したPFN(Predior-Data Fitted Transformer Network)を用いている。
我々の手法は最先端のクラスタリング技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-27T17:53:19Z) - Consistent Amortized Clustering via Generative Flow Networks [6.9158153233702935]
本稿では,アモータイズクラスタリングのための新しいフレームワークであるGFNCPを紹介する。
GFNCPは、政策と報酬の共有エネルギーベースのパラメトリゼーションを備えた生成フローネットワークとして定式化されている。
流れの一致条件は, 境界条件下でのクラスタリング後部の整合性に等しいことを示す。
論文 参考訳(メタデータ) (2025-02-26T17:30:52Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Interpretable Deep Clustering for Tabular Data [7.972599673048582]
クラスタリングは、データ分析で広く使われている基本的な学習タスクである。
本稿では,インスタンスとクラスタレベルでの解釈可能なクラスタ割り当てを予測する,新たなディープラーニングフレームワークを提案する。
提案手法は,生物,テキスト,画像,物理データセットのクラスタ割り当てを確実に予測できることを示す。
論文 参考訳(メタデータ) (2023-06-07T21:08:09Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Robust Self-Supervised Convolutional Neural Network for Subspace
Clustering and Classification [0.10152838128195464]
本稿では,自己管理型畳み込みサブスペースクラスタリングネットワーク(S2$ConvSCN)のロバストな定式化を提案する。
真の教師なしのトレーニング環境では、Robust $S2$ConvSCNは、4つのよく知られたデータセットで見られるデータと見えないデータの両方に対して、ベースラインバージョンをかなり上回っている。
論文 参考訳(メタデータ) (2020-04-03T16:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。