論文の概要: IOCC: Aligning Semantic and Cluster Centers for Few-shot Short Text Clustering
- arxiv url: http://arxiv.org/abs/2508.06126v1
- Date: Fri, 08 Aug 2025 08:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.147784
- Title: IOCC: Aligning Semantic and Cluster Centers for Few-shot Short Text Clustering
- Title(参考訳): IOCC: 短文クラスタリングのためのセマンティックとクラスタセンターの調整
- Authors: Jixuan Yin, Zhihao Yao, Wenshuai Huo, Xinmiao Yu, Xiaocheng Feng, Bo Li,
- Abstract要約: クラスタリングタスクでは、特徴空間を明確で分離された分布に構造化することが不可欠である。
本稿では,クラスタセンターとセマンティックセンターのアライメントを実現するための,数発のコントラスト学習手法であるIOCCを提案する。
IOCCは従来の手法より優れており、バイオメディカルデータセットの課題に対して最大7.34%の改善が達成されている。
- 参考スコア(独自算出の注目度): 15.657808381423736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In clustering tasks, it is essential to structure the feature space into clear, well-separated distributions. However, because short text representations have limited expressiveness, conventional methods struggle to identify cluster centers that truly capture each category's underlying semantics, causing the representations to be optimized in suboptimal directions. To address this issue, we propose IOCC, a novel few-shot contrastive learning method that achieves alignment between the cluster centers and the semantic centers. IOCC consists of two key modules: Interaction-enhanced Optimal Transport (IEOT) and Center-aware Contrastive Learning (CACL). Specifically, IEOT incorporates semantic interactions between individual samples into the conventional optimal transport problem, and generate pseudo-labels. Based on these pseudo-labels, we aggregate high-confidence samples to construct pseudo-centers that approximate the semantic centers. Next, CACL optimizes text representations toward their corresponding pseudo-centers. As training progresses, the collaboration between the two modules gradually reduces the gap between cluster centers and semantic centers. Therefore, the model will learn a high-quality distribution, improving clustering performance. Extensive experiments on eight benchmark datasets show that IOCC outperforms previous methods, achieving up to 7.34\% improvement on challenging Biomedical dataset and also excelling in clustering stability and efficiency. The code is available at: https://anonymous.4open.science/r/IOCC-C438.
- Abstract(参考訳): クラスタリングタスクでは、特徴空間を明確で分離された分布に構造化することが不可欠である。
しかし、短いテキスト表現は表現力に制限があるため、従来の手法では、各カテゴリの根底にあるセマンティクスを真に捉えているクラスタセンターを特定するのに苦労し、その表現を最適下向きに最適化する。
そこで本研究では,クラスタセンターとセマンティックセンターのアライメントを実現するための,数発のコントラスト学習手法であるIOCCを提案する。
IOCCは、Interaction-enhanced Optimal Transport (IEOT)とCenter-aware Contrastive Learning (CACL)の2つの主要なモジュールで構成されている。
具体的には、個々のサンプル間の意味的相互作用を従来の最適輸送問題に組み込み、擬似ラベルを生成する。
これらの擬似ラベルに基づいて、高信頼度サンプルを集約し、セマンティックセンタを近似する擬似センタを構築する。
次にCACLは、対応する擬似中心に対してテキスト表現を最適化する。
トレーニングが進むにつれて、2つのモジュール間のコラボレーションは徐々にクラスタセンターとセマンティックセンターの間のギャップを減らします。
したがって、モデルは高品質な分布を学習し、クラスタリング性能を向上させる。
8つのベンチマークデータセットに対する大規模な実験によると、IOCCは以前の手法よりも優れており、挑戦的なバイオメディカルデータセットに対して最大7.34倍の改善を達成し、クラスタリングの安定性と効率性に優れている。
コードは https://anonymous.4open.science/r/IOCC-C438 で公開されている。
関連論文リスト
- Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - How to optimize K-means? [8.206124331448931]
センターベースのクラスタリングアルゴリズム(例えばK平均)はクラスタリングタスクに人気があるが、通常は複雑なデータセットで高い精度を達成するのに苦労する。
主な理由は、従来のセンターベースのクラスタリングアルゴリズムが、クラスタ内のクラスタリングセンターを1つだけ特定しているからです。
そこで本研究では,ECACと呼ばれる汎用最適化手法を提案し,異なる中心型クラスタリングアルゴリズムを最適化する。
論文 参考訳(メタデータ) (2025-03-25T03:37:52Z) - Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - End-to-end Learnable Clustering for Intent Learning in Recommendation [54.157784572994316]
我々は、アンダーラインELCRecと呼ばれる新しい意図学習手法を提案する。
振る舞い表現学習をUnderlineEnd-to-end UnderlineLearnable UnderlineClusteringフレームワークに統合する。
1億3000万ページビューの産業レコメンデーションシステムに本手法をデプロイし,有望な結果を得る。
論文 参考訳(メタデータ) (2024-01-11T15:22:55Z) - Very Compact Clusters with Structural Regularization via Similarity and
Connectivity [3.779514860341336]
本稿では,汎用データセットのためのエンドツーエンドのディープクラスタリングアルゴリズムであるVery Compact Clusters (VCC)を提案する。
提案手法は,最先端のクラスタリング手法よりも優れたクラスタリング性能を実現する。
論文 参考訳(メタデータ) (2021-06-09T23:22:03Z) - A Classification-Based Approach to Semi-Supervised Clustering with
Pairwise Constraints [5.639904484784126]
対制約付き半教師付きクラスタリングのためのネットワークフレームワークを提案する。
既存のアプローチとは対照的に、SSCを2つの単純な分類タスク/ステージに分解する。
提案手法であるS3C2は、二項分類がマルチクラスクラスタリングよりも容易であるという観察から動機づけられている。
論文 参考訳(メタデータ) (2020-01-18T20:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。