論文の概要: ClusTop: An unsupervised and integrated text clustering and topic
extraction framework
- arxiv url: http://arxiv.org/abs/2301.00818v1
- Date: Tue, 3 Jan 2023 03:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:20:07.187898
- Title: ClusTop: An unsupervised and integrated text clustering and topic
extraction framework
- Title(参考訳): ClusTop: 教師なしおよび統合されたテキストクラスタリングとトピック抽出フレームワーク
- Authors: Zhongtao Chen, Chenghu Mi, Siwei Duo, Jingfei He, Yatong Zhou
- Abstract要約: 教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。
フレームワークには、拡張言語モデルトレーニング、次元削減、クラスタリング、トピック抽出の4つのコンポーネントが含まれている。
2つのデータセットの実験は、我々のフレームワークの有効性を実証している。
- 参考スコア(独自算出の注目度): 3.3073775218038883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text clustering and topic extraction are two important tasks in text mining.
Usually, these two tasks are performed separately. For topic extraction to
facilitate clustering, we can first project texts into a topic space and then
perform a clustering algorithm to obtain clusters. To promote topic extraction
by clustering, we can first obtain clusters with a clustering algorithm and
then extract cluster-specific topics. However, this naive strategy ignores the
fact that text clustering and topic extraction are strongly correlated and
follow a chicken-and-egg relationship. Performing them separately fails to make
them mutually benefit each other to achieve the best overall performance. In
this paper, we propose an unsupervised text clustering and topic extraction
framework (ClusTop) which integrates text clustering and topic extraction into
a unified framework and can achieve high-quality clustering result and extract
topics from each cluster simultaneously. Our framework includes four
components: enhanced language model training, dimensionality reduction,
clustering and topic extraction, where the enhanced language model can be
viewed as a bridge between clustering and topic extraction. On one hand, it
provides text embeddings with a strong cluster structure which facilitates
effective text clustering; on the other hand, it pays high attention on the
topic related words for topic extraction because of its self-attention
architecture. Moreover, the training of enhanced language model is
unsupervised. Experiments on two datasets demonstrate the effectiveness of our
framework and provide benchmarks for different model combinations in this
framework.
- Abstract(参考訳): テキストクラスタリングとトピック抽出は、テキストマイニングにおける2つの重要なタスクである。
通常、これら2つの作業は別々に行われる。
トピック抽出がクラスタリングを容易にするためには,まずテキストをトピック空間に投影し,クラスタリングアルゴリズムでクラスタリングを行う。
クラスタリングによるトピック抽出を促進するため,まずクラスタリングアルゴリズムを用いてクラスタを抽出し,クラスタ固有のトピックを抽出する。
しかし,このナイーブ戦略は,テキストクラスタリングとトピック抽出が強く相関し,ニワトリと卵の関係に従うという事実を無視している。
個別に行うことは、最高の全体的なパフォーマンスを達成するために互いに利益を与え合うのに失敗する。
本稿では,テキストクラスタリングとトピック抽出を統合されたフレームワークに統合し,高品質なクラスタリング結果を達成し,各クラスタからトピックを同時に抽出する,教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。
フレームワークには,拡張言語モデルトレーニング,次元縮小,クラスタリング,トピック抽出の4つのコンポーネントが含まれており,拡張言語モデルをクラスタリングとトピック抽出の橋渡しと見なすことができる。
一方,本システムは,テキストクラスタリングを効果的に行うための強力なクラスタ構造を備えたテキスト埋め込みを提供する一方で,自己注意型アーキテクチャのため,トピック抽出のための話題関連単語に注意を払っている。
さらに、強化された言語モデルの訓練は監督されない。
2つのデータセットにおける実験は、このフレームワークの有効性を示し、このフレームワークで異なるモデルの組み合わせのベンチマークを提供する。
関連論文リスト
- Contrastive Learning Subspace for Text Clustering [4.065026352441705]
本稿では,SCL(Subspace Contrastive Learning)というテキストクラスタリング手法を提案する。
提案するSCLは,(1)仮想正のサンプルを構成する自己表現モジュール,(2)テキスト間のタスク固有のクラスタ関係を捉えるための識別サブ空間を学習するコントラスト学習モジュールの2つの主要モジュールから構成される。
実験結果から, 提案手法は複数のタスククラスタリングデータセットにおいて優れた結果を得ただけでなく, 正のサンプル構築における複雑性も低かった。
論文 参考訳(メタデータ) (2024-08-26T09:08:26Z) - JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization [3.992091862806936]
私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。
テキストデータから,JADS(Joint Aspect Discovery and Summarization Algorithm)が入力からアスペクトを検出する。
提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。
論文 参考訳(メタデータ) (2024-05-28T23:01:57Z) - Context-Aware Clustering using Large Language Models [20.971691166166547]
CACTUS (Context-Aware ClusTering with aUgmented triplet losS) を提案する。
本稿では,大規模言語モデル(LLM)を用いたクラスタリングエンティティサブセットへの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-02T03:50:31Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - Deep Clustering: A Comprehensive Survey [53.387957674512585]
クラスタリング分析は、機械学習とデータマイニングにおいて必須の役割を果たす。
ディープ・クラスタリングは、ディープ・ニューラルネットワークを使ってクラスタリングフレンドリーな表現を学習することができるが、幅広いクラスタリングタスクに広く適用されている。
ディープクラスタリングに関する既存の調査は、主にシングルビューフィールドとネットワークアーキテクチャに焦点を当てており、クラスタリングの複雑なアプリケーションシナリオを無視している。
論文 参考訳(メタデータ) (2022-10-09T02:31:32Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Relation Clustering in Narrative Knowledge Graphs [71.98234178455398]
原文内の関係文は(SBERTと)埋め込み、意味論的に類似した関係をまとめるためにクラスタ化される。
予備的なテストでは、そのようなクラスタリングが類似した関係を検知し、半教師付きアプローチのための貴重な前処理を提供することが示されている。
論文 参考訳(メタデータ) (2020-11-27T10:43:04Z) - Neural Text Classification by Jointly Learning to Cluster and Align [5.969960391685054]
我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
論文 参考訳(メタデータ) (2020-11-24T16:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。