論文の概要: Neural Text Classification by Jointly Learning to Cluster and Align
- arxiv url: http://arxiv.org/abs/2011.12184v1
- Date: Tue, 24 Nov 2020 16:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 13:11:01.020728
- Title: Neural Text Classification by Jointly Learning to Cluster and Align
- Title(参考訳): クラスタとアライメントの連成学習によるニューラルテキストの分類
- Authors: Yekun Chai, Haidong Zhang, Shuo Jin
- Abstract要約: 我々は、潜在変数モデルを介してクラスタセンターを誘導し、分散単語の埋め込みと相互作用することで、ニューラルネットワークによるクラスタリングアプローチをテキスト分類タスクに拡張する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを共同で学習し,複数のベンチマークデータセット上で技術結果の状態を達成している。
- 参考スコア(独自算出の注目度): 5.969960391685054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional text clustering delivers semantically informative
representations and captures the relevance between each word and semantic
clustering centroids. We extend the neural text clustering approach to text
classification tasks by inducing cluster centers via a latent variable model
and interacting with distributional word embeddings, to enrich the
representation of tokens and measure the relatedness between tokens and each
learnable cluster centroid. The proposed method jointly learns word clustering
centroids and clustering-token alignments, achieving the state of the art
results on multiple benchmark datasets and proving that the proposed
cluster-token alignment mechanism is indeed favorable to text classification.
Notably, our qualitative analysis has conspicuously illustrated that text
representations learned by the proposed model are in accord well with our
intuition.
- Abstract(参考訳): 分散テキストクラスタリングはセマンティックな情報表現を提供し、各単語とセマンティッククラスタリングセントロイドの関係を捉える。
ニューラルネットワークのクラスタリングアプローチを,潜在変数モデルを通じてクラスタ中心を誘導し,分散的な単語埋め込みと対話することで,テキスト分類タスクに拡張し,トークンの表現を強化し,トークンと学習可能なクラスタセンタロイド間の関連度を測定する。
提案手法は,単語クラスタリングセンタロイドとクラスタリングトーケンアライメントを併用して学習し,複数のベンチマークデータセット上で技術結果の状態を達成し,提案手法が実際にテキスト分類に好適であることを証明した。
特に、我々の定性的分析は、提案したモデルで学習したテキスト表現が直感と一致していることを示す。
関連論文リスト
- NeurCAM: Interpretable Neural Clustering via Additive Models [3.4437947384641037]
解釈可能なクラスタリングアルゴリズムは、取得したグループを説明しながら、類似したデータポイントをグループ化する。
本稿では、解釈可能なクラスタリング問題に対する新しいアプローチであるNeurCAM(Neur Clustering Additive Model)を紹介する。
本手法は,テキストデータのクラスタリングにおいて,他の解釈可能なクラスタリング手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-23T20:32:57Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - CEIL: A General Classification-Enhanced Iterative Learning Framework for
Text Clustering [16.08402937918212]
短文クラスタリングのための新しい分類強化反復学習フレームワークを提案する。
各イテレーションにおいて、まず最初に言語モデルを採用して、初期テキスト表現を検索する。
厳密なデータフィルタリングと集約プロセスの後、クリーンなカテゴリラベルを持つサンプルが検索され、監督情報として機能する。
最後に、表現能力が改善された更新言語モデルを使用して、次のイテレーションでクラスタリングを強化する。
論文 参考訳(メタデータ) (2023-04-20T14:04:31Z) - ClusTop: An unsupervised and integrated text clustering and topic
extraction framework [3.3073775218038883]
教師なしテキストクラスタリングとトピック抽出フレームワーク(ClusTop)を提案する。
フレームワークには、拡張言語モデルトレーニング、次元削減、クラスタリング、トピック抽出の4つのコンポーネントが含まれている。
2つのデータセットの実験は、我々のフレームワークの有効性を実証している。
論文 参考訳(メタデータ) (2023-01-03T03:26:26Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Learning the Precise Feature for Cluster Assignment [39.320210567860485]
表現学習とクラスタリングを1つのパイプラインに初めて統合するフレームワークを提案する。
提案フレームワークは,近年開発された生成モデルを用いて,本質的な特徴を学習する能力を活用している。
実験の結果,提案手法の性能は,最先端の手法よりも優れているか,少なくとも同等であることがわかった。
論文 参考訳(メタデータ) (2021-06-11T04:08:54Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。