論文の概要: Graph Contrastive Learning via Cluster-refined Negative Sampling for Semi-supervised Text Classification
- arxiv url: http://arxiv.org/abs/2410.18130v1
- Date: Fri, 18 Oct 2024 16:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:19.993226
- Title: Graph Contrastive Learning via Cluster-refined Negative Sampling for Semi-supervised Text Classification
- Title(参考訳): 半教師付きテキスト分類のためのクラスタ修正負サンプリングによるグラフコントラスト学習
- Authors: Wei Ai, Jianbin Li, Ze Wang, Jiayi Du, Tao Meng, Yuntao Shou, Keqin Li,
- Abstract要約: グラフコントラスト学習(GCL)はテキスト分類タスクに広く応用されている。
既存のGCLベースのテキスト分類手法は、しばしば負のサンプリングバイアスに悩まされる。
本稿では,クラスタ教師付き負サンプリングによるグラフコントラスト学習の革新的なGCL手法を提案する。
- 参考スコア(独自算出の注目度): 22.476289610168056
- License:
- Abstract: Graph contrastive learning (GCL) has been widely applied to text classification tasks due to its ability to generate self-supervised signals from unlabeled data, thus facilitating model training. However, existing GCL-based text classification methods often suffer from negative sampling bias, where similar nodes are incorrectly paired as negative pairs. This can lead to over-clustering, where instances of the same class are divided into different clusters. To address the over-clustering issue, we propose an innovative GCL-based method of graph contrastive learning via cluster-refined negative sampling for semi-supervised text classification, namely ClusterText. Firstly, we combine the pre-trained model Bert with graph neural networks to learn text representations. Secondly, we introduce a clustering refinement strategy, which clusters the learned text representations to obtain pseudo labels. For each text node, its negative sample set is drawn from different clusters. Additionally, we propose a self-correction mechanism to mitigate the loss of true negative samples caused by clustering inconsistency. By calculating the Euclidean distance between each text node and other nodes within the same cluster, distant nodes are still selected as negative samples. Our proposed ClusterText demonstrates good scalable computing, as it can effectively extract important information from from a large amount of data. Experimental results demonstrate the superiority of ClusterText in text classification tasks.
- Abstract(参考訳): グラフコントラスト学習(GCL)は、ラベルのないデータから自己教師付き信号を生成できることから、テキスト分類タスクに広く応用されている。
しかし、既存のGCLベースのテキスト分類法は、しばしば負のサンプリングバイアスに悩まされる。
これにより、オーバークラスタ化が発生し、同じクラスのインスタンスは異なるクラスタに分割される。
クラスタリング問題に対処するため,クラスタ修正陰性サンプリングによるグラフコントラスト学習手法であるClusterTextを提案する。
まず、事前学習されたBertモデルとグラフニューラルネットワークを組み合わせて、テキスト表現を学習する。
次に、学習したテキスト表現をクラスタ化して擬似ラベルを得るクラスタリング改善戦略を提案する。
各テキストノードに対して、その負のサンプルセットは異なるクラスタから描画される。
さらに,クラスタリングの不整合に起因する真の負のサンプルの損失を軽減する自己補正機構を提案する。
同一クラスタ内の各テキストノードと他のノード間のユークリッド距離を計算することにより、遠いノードは依然として負のサンプルとして選択される。
提案したClusterTextは、大量のデータから重要な情報を効果的に抽出できるので、優れたスケーラブルコンピューティングを実証する。
テキスト分類タスクにおけるClusterTextの優位性を示す実験結果が得られた。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [79.46465138631592]
観測されたラベルを用いてクラスタを復元する効率的なアルゴリズムを考案する。
本稿では,期待値と高い確率でこれらの下位境界との性能を一致させる最初のアルゴリズムであるIACを提案する。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - CLC: Cluster Assignment via Contrastive Representation Learning [9.631532215759256]
コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。
完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-08T07:15:13Z) - Twin Contrastive Learning for Online Clustering [15.9794051341163]
本稿では、インスタンスとクラスタレベルで双対学習(TCL)を行うことにより、オンラインクラスタリングを実現することを提案する。
対象のクラスタ番号の次元を持つ特徴空間にデータを投影すると、その特徴行列の行と列がインスタンスとクラスタ表現に対応していることがわかった。
論文 参考訳(メタデータ) (2022-10-21T02:12:48Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Learning Statistical Representation with Joint Deep Embedded Clustering [2.1267423178232407]
StatDECは、共同統計表現学習とクラスタリングのための教師なしのフレームワークである。
実験により,これらの表現を用いることで,様々な画像データセットにまたがる不均衡な画像クラスタリングの結果を大幅に改善できることが示された。
論文 参考訳(メタデータ) (2021-09-11T09:26:52Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。