論文の概要: Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models
- arxiv url: http://arxiv.org/abs/2601.01162v1
- Date: Sat, 03 Jan 2026 11:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.061139
- Title: Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models
- Title(参考訳): 大規模言語モデルによるカテゴリデータクラスタリングのためのセマンティックギャップのブリッジ
- Authors: Zihua Yang, Xin Liao, Yiqun Zhang, Yiu-ming Cheung,
- Abstract要約: ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 64.58262227709842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Categorical data are prevalent in domains such as healthcare, marketing, and bioinformatics, where clustering serves as a fundamental tool for pattern discovery. A core challenge in categorical data clustering lies in measuring similarity among attribute values that lack inherent ordering or distance. Without appropriate similarity measures, values are often treated as equidistant, creating a semantic gap that obscures latent structures and degrades clustering quality. Although existing methods infer value relationships from within-dataset co-occurrence patterns, such inference becomes unreliable when samples are limited, leaving the semantic context of the data underexplored. To bridge this gap, we present ARISE (Attention-weighted Representation with Integrated Semantic Embeddings), which draws on external semantic knowledge from Large Language Models (LLMs) to construct semantic-aware representations that complement the metric space of categorical data for accurate clustering. That is, LLM is adopted to describe attribute values for representation enhancement, and the LLM-enhanced embeddings are combined with the original data to explore semantically prominent clusters. Experiments on eight benchmark datasets demonstrate consistent improvements over seven representative counterparts, with gains of 19-27%. Code is available at https://github.com/develop-yang/ARISE
- Abstract(参考訳): 分類データは、医療、マーケティング、バイオインフォマティクスといった領域で広く使われており、クラスタリングがパターン発見の基本的なツールとなっている。
分類データクラスタリングにおける中核的な課題は、固有の順序や距離を持たない属性値間の類似度を測定することである。
適切な類似度尺度がなければ、値はしばしば同値として扱われ、潜在構造を曖昧にし、クラスタリングの品質を低下させる意味的ギャップを生じる。
既存の手法は、データセット内の共起パターンから値関係を推測するが、サンプルが限定された場合、そのような推論は信頼性が低くなり、データのセマンティックコンテキストが過小評価される。
このギャップを埋めるために、我々は、大言語モデル(LLM)から外部意味知識に基づくARISE(Attention-weighted Representation with Integrated Semantic Embeddings)を紹介し、正確なクラスタリングのために分類データの計量空間を補完する意味認識表現を構築する。
すなわち、LLMは表現強調のための属性値を記述するために採用され、LLMを拡張した埋め込みと元のデータを組み合わせて意味的に顕著なクラスタを探索する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示され、19~27%のゲインが得られた。
コードはhttps://github.com/develop-yang/ARISEで入手できる。
関連論文リスト
- Break the Tie: Learning Cluster-Customized Category Relationships for Categorical Data Clustering [51.11677202873771]
定性的な値を持つカテゴリ属性は、実際のデータセットのクラスタ分析においてユビキタスである。
数値属性のユークリッド距離とは異なり、分類属性はそれらの可能な値の明確な関係を欠いている。
本稿では属性カテゴリの固有関係関係を破り、様々なクラスタ分布を柔軟に明らかにするのに適したカスタマイズされた距離メトリクスを学習する。
論文 参考訳(メタデータ) (2025-11-12T06:57:24Z) - Imputation-free and Alignment-free: Incomplete Multi-view Clustering Driven by Consensus Semantic Learning [65.75756724642932]
不完全なマルチビュークラスタリングでは、欠落したデータがビュー内のプロトタイプシフトとビュー間のセマンティック不整合を誘導する。
コンセンサスセマンティクス学習(FreeCSL)のためのIMVCフレームワークを提案する。
FreeCSLは、最先端の競合他社と比較して、IMVCタスクの信頼性と堅牢な割り当てを実現している。
論文 参考訳(メタデータ) (2025-05-16T12:37:10Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。