論文の概要: Reliable Pseudo-labeling via Optimal Transport with Attention for Short Text Clustering
- arxiv url: http://arxiv.org/abs/2501.15194v1
- Date: Sat, 25 Jan 2025 12:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:18.186723
- Title: Reliable Pseudo-labeling via Optimal Transport with Attention for Short Text Clustering
- Title(参考訳): 短文クラスタリングのための最適搬送による信頼な擬似ラベル作成
- Authors: Zhihao Yao, Jixuan Yin, Bo Li,
- Abstract要約: 本稿では,textbfOptimal textbfTransportを経由したReliable textbfPseudo-labelingという,新しいテキストクラスタリングフレームワークを提案する。
textbfPOTAはクラスタリングのための識別表現学習を支援するために、信頼できる擬似ラベルを生成する。
- 参考スコア(独自算出の注目度): 6.182375768528008
- License:
- Abstract: Short text clustering has gained significant attention in the data mining community. However, the limited valuable information contained in short texts often leads to low-discriminative representations, increasing the difficulty of clustering. This paper proposes a novel short text clustering framework, called Reliable \textbf{P}seudo-labeling via \textbf{O}ptimal \textbf{T}ransport with \textbf{A}ttention for Short Text Clustering (\textbf{POTA}), that generate reliable pseudo-labels to aid discriminative representation learning for clustering. Specially, \textbf{POTA} first implements an instance-level attention mechanism to capture the semantic relationships among samples, which are then incorporated as a regularization term into an optimal transport problem. By solving this OT problem, we can yield reliable pseudo-labels that simultaneously account for sample-to-sample semantic consistency and sample-to-cluster global structure information. Additionally, the proposed OT can adaptively estimate cluster distributions, making \textbf{POTA} well-suited for varying degrees of imbalanced datasets. Then, we utilize the pseudo-labels to guide contrastive learning to generate discriminative representations and achieve efficient clustering. Extensive experiments demonstrate \textbf{POTA} outperforms state-of-the-art methods. The code is available at: \href{https://github.com/YZH0905/POTA-STC/tree/main}{https://github.com/YZH0905/POTA-STC/tree/main}.
- Abstract(参考訳): データマイニングコミュニティでは,短いテキストクラスタリングが注目されている。
しかし、短いテキストに含まれる限られた貴重な情報は、しばしば低差別的な表現をもたらし、クラスタリングの難しさを増大させる。
本稿では, クラスタリングのための識別表現学習を支援するために, 信頼度の高い擬似ラベルを生成するための, 短いテキストクラスタリングフレームワークであるReliable \textbf{P}seudo-labelingを, 短文クラスタリングのための \textbf{A}ttention for Short Text Clustering (\textbf{POTA}) を用いて提案する。
特に、 \textbf{POTA} はまず、サンプル間の意味的関係をキャプチャするインスタンスレベルの注意機構を実装し、次に正規化項として最適な輸送問題に組み込む。
このOT問題を解くことで、サンプルからサンプルまでのセマンティック一貫性とサンプルからクラスタまでのグローバルな構造情報を同時に考慮した、信頼できる擬似ラベルを得ることができる。
さらに、提案したOTはクラスタ分布を適応的に推定することができ、不均衡なデータセットの度合いに適している。
そして,擬似ラベルを用いてコントラスト学習を指導し,識別表現を生成し,効率的なクラスタリングを実現する。
大規模な実験では、‘textbf{POTA} は最先端の手法よりも優れていた。
コードは以下の通りである。 \href{https://github.com/YZH0905/POTA-STC/tree/main}{https://github.com/YZH0905/POTA-STC/tree/main}。
関連論文リスト
- Self-Supervised Graph Embedding Clustering [70.36328717683297]
K-means 1-step dimensionality reduction clustering method は,クラスタリングタスクにおける次元性の呪いに対処する上で,いくつかの進歩をもたらした。
本稿では,K-meansに多様体学習を統合する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T08:59:51Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Federated Learning for Short Text Clustering [21.308142639645517]
短文クラスタリングのためのFederated Robust Short Text Clustering (FSTC) フレームワークを提案する。
堅牢なショートテキストクラスタリングモジュールは、各クライアントのローカルデータによる効果的なショートテキストクラスタリングモデルをトレーニングすることを目的としている。
フェデレートされたクラスタセンターアグリゲーションモジュールは、ローカルな生データを共有せずに、クライアント間で知識を交換することを目的としている。
論文 参考訳(メタデータ) (2023-11-23T12:19:41Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - An Improved Algorithm for Clustered Federated Learning [29.166363192740768]
本稿では、フェデレートラーニング(FL)における異種モデル間の二分法と同時学習について述べる。
ユーザの(最適)局所モデルに基づいてFLの新しいクラスタリングモデルを定義する。
textttSR-FCAは、クラスタ内の堅牢な学習アルゴリズムを使用して、同時トレーニングとクラスタエラーの修正を行う。
論文 参考訳(メタデータ) (2022-10-20T19:14:36Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。