論文の概要: CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering
- arxiv url: http://arxiv.org/abs/2304.11061v1
- Date: Thu, 20 Apr 2023 14:04:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:17:25.453938
- Title: CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering
- Title(参考訳): ceil: テキストクラスタリングのための一般分類型反復学習フレームワーク
- Authors: Mingjun Zhao, Mengzhen Wang, Yinglong Ma, Di Niu and Haijiang Wu
- Abstract要約: 短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
- 参考スコア(独自算出の注目度): 16.08402937918212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text clustering, as one of the most fundamental challenges in unsupervised
learning, aims at grouping semantically similar text segments without relying
on human annotations. With the rapid development of deep learning, deep
clustering has achieved significant advantages over traditional clustering
methods. Despite the effectiveness, most existing deep text clustering methods
rely heavily on representations pre-trained in general domains, which may not
be the most suitable solution for clustering in specific target domains. To
address this issue, we propose CEIL, a novel Classification-Enhanced Iterative
Learning framework for short text clustering, which aims at generally promoting
the clustering performance by introducing a classification objective to
iteratively improve feature representations. In each iteration, we first adopt
a language model to retrieve the initial text representations, from which the
clustering results are collected using our proposed Category Disentangled
Contrastive Clustering (CDCC) algorithm. After strict data filtering and
aggregation processes, samples with clean category labels are retrieved, which
serve as supervision information to update the language model with the
classification objective via a prompt learning approach. Finally, the updated
language model with improved representation ability is used to enhance
clustering in the next iteration. Extensive experiments demonstrate that the
CEIL framework significantly improves the clustering performance over
iterations, and is generally effective on various clustering algorithms.
Moreover, by incorporating CEIL on CDCC, we achieve the state-of-the-art
clustering performance on a wide range of short text clustering benchmarks
outperforming other strong baseline methods.
- Abstract(参考訳): テキストクラスタリングは、教師なし学習における最も基本的な課題の1つであり、人間のアノテーションに頼ることなく、意味的に類似したテキストセグメントをグループ化する。
ディープラーニングの急速な発展により、ディープクラスタリングは従来のクラスタリング方法よりも大きなアドバンテージを達成している。
有効性にもかかわらず、既存のディープテキストクラスタリングメソッドのほとんどは、一般的なドメインで事前トレーニングされた表現に大きく依存しており、特定のターゲットドメインでのクラスタリングに最も適したソリューションではないかもしれない。
そこで本研究では,特徴表現を反復的に改善するための分類目標を導入することで,クラスタリング性能の全般的向上を目標とする,短いテキストクラスタリングのための新しい分類強調型反復学習フレームワークceilを提案する。
各イテレーションにおいて、まず最初に言語モデルを用いて初期テキスト表現を検索し、そこから提案したカテゴリ・ディスタングル・コントラスト・クラスタリング(CDCC)アルゴリズムを用いてクラスタリング結果を収集する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルを検索し、即時学習アプローチを通じて言語モデルを分類対象で更新する監視情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
大規模な実験により、CEILフレームワークは反復よりもクラスタリング性能を著しく改善し、一般に様々なクラスタリングアルゴリズムに有効であることが示された。
さらに, CEILをCDCCに組み込むことで, 他の強力なベースライン手法よりも優れた長文クラスタリングベンチマークにおいて, 最先端のクラスタリング性能を実現する。
関連論文リスト
- Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - Cluster-level Group Representativity Fairness in $k$-means Clustering [3.420467786581458]
クラスタリングアルゴリズムは、異なるグループが異なるクラスタ内で不利になるようにクラスタを生成することができる。
我々は,古典的アルゴリズムに先駆けて,セントロイドクラスタリングパラダイムに基づくクラスタリングアルゴリズムを開発した。
本手法はクラスタレベルの表現性フェアネスを,クラスタのコヒーレンスに低い影響で向上させるのに有効であることを示す。
論文 参考訳(メタデータ) (2022-12-29T22:02:28Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - CAC: A Clustering Based Framework for Classification [20.372627144885158]
分類アウェアクラスタリング(CAC)と呼ばれるシンプルで効率的で汎用的なフレームワークを設計する。
本実験は,クラスタリングと分類を併用した従来の手法よりもCACの有効性を示すものである。
論文 参考訳(メタデータ) (2021-02-23T18:59:39Z) - Neural Text Classification by Jointly Learning to Cluster and Align [5.969960391685054]
我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
論文 参考訳(メタデータ) (2020-11-24T16:07:18Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。