論文の概要: Beyond Statistical Co-occurrence: Unlocking Intrinsic Semantics for Tabular Data Clustering
- arxiv url: http://arxiv.org/abs/2604.10865v1
- Date: Mon, 13 Apr 2026 00:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.256445
- Title: Beyond Statistical Co-occurrence: Unlocking Intrinsic Semantics for Tabular Data Clustering
- Title(参考訳): 統計的共起を超えて: 語彙データクラスタリングに固有の意味論を解き放つ
- Authors: Mingjie Zhao, Yunfan Zhang, Yiqun Zhang, Yiu-ming Cheung,
- Abstract要約: 本稿では,TagCC(Tabular-Augmented Contrastive Clustering)を提案する。
TagCCは、セマンティック・アウェア・トランスフォーメーションを通じて、基礎となるデータセマンティクスをテキストアンカーに蒸留する。
クラスタリングの目的と共同で最適化されており、学習した表現がセマンティックに一貫性があり、クラスタリングに親しみやすいことを保証する。
- 参考スコア(独自算出の注目度): 52.97486694817375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Clustering (DC) has emerged as a powerful tool for tabular data analysis in real-world domains like finance and healthcare. However, most existing methods rely on data-level statistical co-occurrence to infer the latent metric space, often overlooking the intrinsic semantic knowledge encapsulated in feature names and values. As a result, semantically related concepts like `Flu' and `Cold' are often treated as symbolic tokens, causing conceptually related samples to be isolated. To bridge the gap between dataset-specific statistics and intrinsic semantic knowledge, this paper proposes Tabular-Augmented Contrastive Clustering (TagCC), a novel framework that anchors statistical tabular representations to open-world textual concepts. Specifically, TagCC utilizes Large Language Models (LLMs) to distill underlying data semantics into textual anchors via semantic-aware transformation. Through Contrastive Learning (CL), the framework enriches the statistical tabular representations with the open-world semantics encapsulated in these anchors. This CL framework is jointly optimized with a clustering objective, ensuring that the learned representations are both semantically coherent and clustering-friendly. Extensive experiments on benchmark datasets demonstrate that TagCC significantly outperforms its counterparts.
- Abstract(参考訳): Deep Clustering(DC)は、ファイナンスやヘルスケアといった現実の領域において、表データ分析の強力なツールとして登場した。
しかし、既存のほとんどの手法は、潜在距離空間を推測するためにデータレベルの統計的共起に依存しており、しばしば特徴名や値にカプセル化された本質的な意味知識を見落としている。
その結果、「Flu」や「Cold」のような意味論的に関連する概念は、しばしば象徴的なトークンとして扱われ、概念的に関連するサンプルを分離する。
データセット固有の統計と本質的な意味知識のギャップを埋めるために,オープンワールドのテクスト概念に統計的表象表現を固定する新しいフレームワークであるTabular-Augmented Contrastive Clustering (TagCC)を提案する。
具体的には、TagCCはLarge Language Models(LLMs)を使用して、セマンティック・アウェア・トランスフォーメーションを通じて、基礎となるデータセマンティクスをテキストアンカーに蒸留する。
Contrastive Learning (CL) を通じて、このフレームワークは、これらのアンカーにカプセル化されたオープンワールドセマンティクスによって、統計的表象表現を豊かにする。
このCLフレームワークはクラスタリングの目的と共同で最適化されており、学習された表現がセマンティックな一貫性とクラスタリングに親しみやすいことを保証する。
ベンチマークデータセットに関する大規模な実験は、TagCCがそれよりも大幅に優れていることを示している。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - CAE: Character-Level Autoencoder for Non-Semantic Relational Data Grouping [0.9595254895337946]
本稿では,非意味的関係データセットにおいて,意味論的に同一の列を自動的に識別し,グループ化する新しい文字レベルオートエンコーダ(CAE)手法を提案する。
意味的解釈可能性の制限に苦しむ従来の自然言語処理(NLP)モデルとは異なり、我々の手法は固定辞書制約で文字レベルで動作する。
固定辞書サイズを維持することにより、メモリ要件とトレーニング時間の両方を著しく削減し、大規模産業データ環境の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2025-11-10T22:07:22Z) - Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge [30.05176623784069]
部分的マルチラベル学習は、不完全な注釈付きデータから知識を抽出することを目的としている。
主な課題は、ラベルとインスタンス間のあいまいな関係を正確に識別することである。
本稿では,セマンティック・コレクレンス・インサイト・ネットワーク(SCINet)を提案する。
論文 参考訳(メタデータ) (2025-07-08T13:53:28Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - CTG-KrEW: Generating Synthetic Structured Contextually Correlated Content by Conditional Tabular GAN with K-Means Clustering and Efficient Word Embedding [12.072052949955385]
条件付き Tabular Generative Adversarial Networks (CTGAN) は、合成データを効率的に作成する能力に魅力がある。
本稿では,属性が意味的・文脈的に一貫性のある単語の集合である現実的な合成データを生成するのに長けている新しいフレームワークCTGKrEWを紹介する。
CTGKrEWは、従来のアプローチに比べてCPU時間の約99%、メモリフットプリントを33%削減する。
論文 参考訳(メタデータ) (2024-09-03T05:53:57Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。